так как со временем могут появиться битые ссылки и их надо будет убивать из индекса. по поводу быстрые\тормозные страницы - в любом случае первый раз их придётся не глядя тянуть, а вот уже потом...
убивать надо умеючи, ccылка может быть:
- убитой или альтернативы
- сервер может лежать
- может быть редирект
- или временный редирект
в любом случае, при повторном индексировании надо учитывать статусы ответов.
по поводу быстрые\тормозные страницы - в любом случае первый раз их придётся не глядя тянуть, а вот уже потом..
я и говорю про потом ... повторное индексирование должно быть (частота определяется чтением заголовков )
если будет большая нагрузка, то возможно придётся всех их на разные машины ложить.
надо сразу это продумывать.
одна машина тянет контент, одна строит индекс (возможно их можно совместить), а третья раздает
учи С++/UNIX - раз предоставляется такая хорошая возможность и такой интересный проект, а то через год придется все переписывать.
еще надо учитывать robot.txt & sitemap.xml
аттрибуты noflow и прочие тонкости.
да и алгорим то у вас есть? что из текста индексировать? какие блоки текста? как отличить контент от мусора? сотни вопросов.
море информации в интернете
ранжировка
опять тот же
BM25 надо на С++ писать (или готовый использовать)
пых - сдохнет