Регулярка для парсера

Alexandre

PHPПенсионер
так как со временем могут появиться битые ссылки и их надо будет убивать из индекса. по поводу быстрые\тормозные страницы - в любом случае первый раз их придётся не глядя тянуть, а вот уже потом...
убивать надо умеючи, ccылка может быть:
- убитой или альтернативы
- сервер может лежать
- может быть редирект
- или временный редирект
в любом случае, при повторном индексировании надо учитывать статусы ответов.

по поводу быстрые\тормозные страницы - в любом случае первый раз их придётся не глядя тянуть, а вот уже потом..
я и говорю про потом ... повторное индексирование должно быть (частота определяется чтением заголовков )
если будет большая нагрузка, то возможно придётся всех их на разные машины ложить.
надо сразу это продумывать.
одна машина тянет контент, одна строит индекс (возможно их можно совместить), а третья раздает

учи С++/UNIX - раз предоставляется такая хорошая возможность и такой интересный проект, а то через год придется все переписывать.

еще надо учитывать robot.txt & sitemap.xml
аттрибуты noflow и прочие тонкости.

да и алгорим то у вас есть? что из текста индексировать? какие блоки текста? как отличить контент от мусора? сотни вопросов.
море информации в интернете ранжировка
опять тот же BM25 надо на С++ писать (или готовый использовать)
пых - сдохнет
 

JOSS-PHP

Новичок
всё правильно.
слава богу хорошо общаюсь с *nix осями.
но если на С, то писать всё кроме выдачи. правильно?
ухх...стока инфы накидали за 2 дня...не успеваю всё вкуривать
 

Духовность™

Продвинутый новичок
а я бы посоветовал не заниматься дурью с таким набором знаний. хороший каталог хороших белорусских ресурсов будет куда нужнее - хотя бы с точки зрения SEO-оптимизаторов.
 

Alexandre

PHPПенсионер
но если на С, то писать всё кроме выдачи. правильно?
сбор и обработку информации
фронт-энд конечно на рнр, зачем еще один Яндыкс изобретать.

бы посоветовал начать с просмотра доступных готовых решений и потом или писать свое или допиливать что-либо чужое
это верно, но когда что-то очень хочется и есть время, то можно и дурью попрактиковаться.
 

JOSS-PHP

Новичок
Alexandre меня понял )))

-~{}~ 16.12.09 17:52:

Автор оригинала: dimagolov
JOSS-PHP, я бы посоветовал начать с просмотра доступных готовых решений и потом или писать свое или допиливать что-либо чужое
да, интересно поглядеть как и где реализованы разные отдельные моменты. что-то из одного , что-то из другого взять... и думаю можно написать что-то рабочее и полезное
 

JOSS-PHP

Новичок
Автор оригинала: Alexandre
и потом показать нам... мы же должны получить моральное удовлетворение от кучи данных советов ;)
а как же... само собой. похвастаться что-ли нельзя :)
 
Сверху