Паук(Spider) Общие вопросы

mak_sim2001 · 5 Дек 2006

Паук(Spider) Общие вопросы

Цель:
Наполнить контент сайта. Конкретно две страницы "события" и "работа".
Сайт типа каталога где компаний размещают свой профайл, и соответсвенно могут добовлять свои вакансии и свои различные события(скидка, акция, выставка и т.п.)

Задача максимум:
Написать систему поиска(я так понимаю полноценный spider) которая будет искать на различных сайтах(неопределенно'), "события" и "предложения о работе".
(Под событием понимается что-то типа" 2006-12-4 состоится фестиваль ..." "Ежегодная ярмарка достижений в области ..." и т.п.).
Соответсвенно сортировать по типам "работы", "событий" и выодить это все в поиске по сайту(как в поисковике) с ссылками на соответсвующие сайты(?).
Причем надо что-бы в выводе было полноценное описание события, или работы

Важный вопрос: Небудет ли это кражей контента?

Делал ли кто подобное? С чего начинать, и т.п. ? Кто какие решения видит? Можно упрощать изменять преформулировать задачу если она некорректна. Кто может какие линки подкинет.
P.S. слышал что на dklab есть код нормального(неплохого =) паука но не нашел там его, мож кто знает???

Solid · 5 Дек 2006

mak_sim2001
Насчёт кражи - спросите у владельцев сайтов. Если разрешат, то берите и пользуйтесь.

Систему лучше всего делать модульной (через интерфейсы), где каждый сайт - отдельный класс.
Остальное сами думайте... самое трудное это писать для каждого сайта парсер, а это регулярные выражения... многопоточность... простая система отловки багов.

mak_sim2001 · 5 Дек 2006

Как раз большх проблем с парсером я невижу, если писать для каждого сайта свой, вопрос в другом можно ли написать для всех сайтов один?
Мне это кажется нереальным, очень много надо учесть, зделать парсер который будет выбирать весь контент, а потом научить его определять что "событие" что "работа" что вообще мусор и нам ненадо. Отсортировать по типам(группам)... и т.п. Далее допустим человек добовляет из CMS url: www.example.com и робот лезет туда проходит по всем внутреним линкам, находит там то-что нам надо если оно есть, и добовляет результаты в базу, т.е. принцип поисковика

boombick · 5 Дек 2006

Хех... я поисковик уже полгода пишу =) Думаешь, можно в двух словах рассказать?

hermit_refined · 5 Дек 2006

как минимум - паук должен соблюдать robots.txt и мета-теги, а информация должна сопровождаться ссылкой на страницу, откуда она была взята.

вопрос в другом можно ли написать для всех сайтов один

нет. а парсеры будут со временем портиться.
потому по возможности надо договариваться об xml-формате предоставления данных.

MajestiC · 5 Дек 2006

Драть с сайтов RSS =)

Solid · 5 Дек 2006

hermit_refined
Предоставление XML данных есть не на каждом сайте, далеко не на каждом...

Alexandre · 5 Дек 2006

Solid для этого есть договоренности и "партнерские программы"
все остальное - кража контента.

Мы сотрудничаем с десятком сайтов, и как мы, так и наши
Партнеры всегда идут взаимное на сотрудничество, представляем как xml, rss или даже просто контентный html без внешнего дизайна. Считаю, что проще поговорить с "владельцами" и определить "степень сотрудничеситва"

Паук(Spider) Общие вопросы

mak_sim2001

Новичок

Solid

Drosera anglica

mak_sim2001

Новичок

boombick

boombick.org

hermit_refined

Отшельник

MajestiC

Пых

Solid

Drosera anglica

Alexandre

PHPПенсионер