Как заставить паука работать пошустрее?

Статус
В этой теме нельзя размещать новые ответы.

punchos

Новичок
Как заставить паука работать пошустрее?

Задача сгенерировать Sitemap сайте где больше 100 тысяч Url'ов. Если не вдоваясь в подробности то написал такой алгоритм:
1. Url храню в БД.
2. получается содержимого базового Url при помощи file_get_contents
3. получаю массив ссылок содержащихся на нем, при помощи рег. выражений
4. проверка на существование Url в БД, есть следущую
5. проверка на исключение Url с Robot.txt, есть следущую
6. посылаю HEAD заголовок, 404 следущую
7. прошла проверки -> в Базу
8. и переходим по этой ссылке и повторяем операции при помощи рекурсии...
после формирования базы генерю уже сам Sitemap...

...Все корректно работает но очень медленно. Сайт в 150 тыс. слов. Он делал около недели.
Подскажите как его заставить работать пошустрее?...Подумал о потоковом программировании, но не чего о нем не знаю и в поиске не чего стоящего не нашол...
Буду признателен за любую помощь...
 

Фанат

oncle terrible
Команда форума
пауки на этом форуме не обсуждаются.
тем более, индексирующие сайты, на которыйх в среднем по 1,5 слова на странице.
 
Статус
В этой теме нельзя размещать новые ответы.
Сверху