паук для обработки всех страниц сайта

Rocks

Новичок
паук для обработки всех страниц сайта

Добрый день.

Мне нужно реализовать идею проверки PR всех страниц сайта. Даже не знаю, с чего к этой задаче подойти.

Пользователем вводится адрес сайта, и затем начинается поиск страниц этого сайта.

Каким образом это реализовать?

Есть идея: брать 1ю страницу, её анализировать и выбирать все внутренние ссылки, заносить их в базу и идти по ссылкам внутрь сайта. По повторным не ходить. На сколько этот процесс долгий? Какие ещё есть варианты реализации данной проблемы?
 

kruglov

Новичок
Процесс долгий.
Других вариантов нет, разве что ясновидение.
Как вы еще узнаете все ссылки, как только просмотрев все страницы? Надо ж мыслить логически.
 

Rocks

Новичок
А каким образом поисковые роботы ищут новый контент? Так же?
 

kvf77

Red Devil
Rocks

да, именно также
хотя их алгоритмы разнятся, скажем они вполне могут просматривать регулярно главную страницу и карту сайта, и редко ппросматривать другие статичные страницы

потому что вероятность изменения первых и наличие на них ссылок на новые страницы тоже выше
 

Rocks

Новичок
ясно. Спасибо!

А не валяется ли где в сети подобный скрипт?
 

kvf77

Red Devil
Rocks


да навалом пример - например, на dklab.ru одна из наблов посвящена вопросам поиска - там есть милый паучек насколько я помню
 
Сверху