Граббер сайтов

scorpion-ds

Новичок
Почему это плохо?

Ни раз на форуме попадал на закрытые темы, когда ТС спрашивали, как выкачать тот или иной сайт, в целом я сам всегда считал это плохой идеей, но ведь бывают разные причины.

Я вот летом отказался от такой задачи на работе, точнее раскритиковал, к моему отказу/критике не очень хорошо отнеслись, задаче была парсирить агрегаторы товаров, а потом в своей системе формирования цен перелагать лучшую цену для товара в магазине.

P.S.: Тема, для оффтопа, так что ...
 

флоппик

promotor fidei
Команда форума
Партнер клуба
Достаточно поставить себя на место человека, которого активно парсят, и внезапно становится все понятно.
 

Ирокез

бессмертный пони
Команда форума
Партнер клуба
Парсить/грабить/выкачивать - однозначно плохо.
Но, есть целый ряд услуг, которым это необходимо, к примеру PCI DSS, требует прохождение сайтом pentest-а, SEO аудит сайта и т.д. кончено все это необходимо согласовывать с владельцем сайта.
 

WMix

герр M:)ller
Партнер клуба
а это не соглашение ли? ну те до тех пор пока все в рамках, тоже не считаю это нарушением. по умолчанию (robots.txt не существует) - запрещено
 

Фанат

oncle terrible
Команда форума
Тут на самом деле два вопроса:
почему на форуме закрывают и почему парсить вообще это плохо .
На второй вопрос ответ очевидный
- да, чаще всего это задача по присваиванию чужого труда. И кивать на гугль не стоит - закрыть свой сайт от индексации - это файл с одной строчкой.
- да, иногда бывают ситуации что парсинг полностью оправдан с моральной точки зрения, и к этим случаям вопросов нет.
На первый вопрос ответ простой:
чаще всего вопросы по парсингу задают голодные пионеры, которые ничего не знают, но хотят всего и побольше. этим просто западло приносить на блюдечке.
 

scorpion-ds

Новичок
Ну вот и интересно, когда это правильно, и я имею ввиду не тогда когда, это с разрешения владельца сайта, а когда это делается без его ведома, разумеется при этом выполняется ряд условий, что бы не положить сайт донор нагрузкой и при "грабеже" ...
 

Ирокез

бессмертный пони
Команда форума
Партнер клуба
Ну можно делать как это делает Яндекс/Google. Создать правила обхода сайта:
- не более N страниц на сессию
- учесть время обращения к сайту (по IP определить регион, гипотетически определить время когда может быть нагрузка меньше)
- интервал регулируйте между запросами, если время ответа сервера начало увеличиваться, увеличивайте интервал между запросами
- анализируйте robots.txt ( crawl-delay, request-rate и тд.) если установлено
- анализируйте sitemap.xml (дата изменения страницы)

и т.д.
 

fixxxer

К.О.
Партнер клуба
Тут я вижу два вопроса:
1) почему считается аморальным это делать (тут Флоппик ответил),
2) почему на форуме принято закрывать такие темы.

В п.2, как мне кажется, куда больше прагматики, чем морали.
Были лет 10 назад всякие так называемые "вебмастерские" форумы. Там я часто встречал людей, которые зарабатывали тем, что писали простые кроулеры-парсеры на php, при этом программировать они, строго говоря, не умели - и учиться не хотели. Просто делали методом копипасты, а как встречалось что-то, для чего готового примера у них не было - бегали по php-форумам с вопросами.
 

Breeze

goshogun
Команда форума
Партнер клуба
Ну можно делать как это делает Яндекс/Google. Создать правила обхода сайта:
- не более N страниц на сессию
- учесть время обращения к сайту (по IP определить регион, гипотетически определить время когда может быть нагрузка меньше)
- интервал регулируйте между запросами, если время ответа сервера начало увеличиваться, увеличивайте интервал между запросами
- анализируйте robots.txt ( crawl-delay, request-rate и тд.) если установлено
- анализируйте sitemap.xml (дата изменения страницы)

и т.д.
Тот, кто знает всё это, не будет задавать подобные вопросы на форуме, а прост сделает как необходимо ему в конкретный момент :)
А "пионерам" надо всё, сразу, желательно бесплатно и чтоб не учить ничего. Вот пионерские топики и удаляются.
 

Ирокез

бессмертный пони
Команда форума
Партнер клуба
[мораль]
любой пост на тему кравлинга приравнивает ТК, к "говно-пионеру" :) т.к. "брутальные" дядьки, знаю, как, когда и что делать.
 

scorpion-ds

Новичок
У нас это было дополнительной функциональностью для агрегатора прайсов, но если при постановки задачи это все выглядело просто, но при обсуждении выросло в несколько недель работы, как минимум.

Изначально:
- нужно, что бы с сайта "Сайт" парсирились цены по определенным категориям товаров, работы понты ...

После обсуждения:
- парсирить надо все из категории, сохранять во временной таблице, необработанных данных;
- приводить название в агрегаторе, к названию у пользователя системой;
- парсирить надо потихоньку, но не реже 1 раза за сутки;
- так как это будет занимать определенные ресурсы, то лучше вынести в отдельный сервис (и сервер);
- так как само приложение СааС решение, то решили, что одну и туже БД цен могут использовать разные клиенты, для разных регионов правда нужны свои агрегаторы

В общем, после такого было решено, отложить это для повторного обсуждения, это было уже наверно год назад ...
 

MiksIr

miksir@home:~$
Парсить не плохо, плохо использовать полученное в нарушение закона. Нарушает ли законы то или иное использование полученного с сайта материала - можно (и нужно) пойти и спросить у юристов.
 

AmdY

Пью пиво
Команда форума
Стоит отметить, что далеко не все темы о парсинге и не сразу закрываются. Данный пункт правил был актуален на момент создания, когда сеошники лепили сотни сателлитов на основании ворованного контента.
 

Breeze

goshogun
Команда форума
Партнер клуба
Стоит отметить, что далеко не все темы о парсинге и не сразу закрываются.
Что логично, ибо какой-нибудь uptime-робот, проверяющий наличие или отсутствие ключевого слова на странице, тоже парсер :)
 

WMix

герр M:)ller
Партнер клуба
Что логично, ибо какой-нибудь uptime-робот, проверяющий наличие или отсутствие ключевого слова на странице, тоже парсер :)
дайте имя, и разрешение на парсинг, если вы этого хотите, об остальном даже упоминать не нужно! но до тех пор пока ручками вписано
Код:
User-agent: *
Disallow:
любой жук в любом месте приветствуется
 
Сверху