Indigo
Новичок
Виснет парсер сайтов
Всем привет.
Написан парсер. Парсит каталог и тематические сайти по тематике каталога заносит в базу. Парсит рекурсивно: название тематики, сайты тематики, подтематики, заходит в подтематику и парсит далее...(название тематики, сайты тематики, подтематики....). также парсится каждий сайт тематики чтоб узнать его кодировку.
шаг 1: парсинг странички тематики. парсим подтематики и сайты на страничке
шаг 2: заносим название тематики в базу
шаг 3: парсим сайты для распознания кодировки
шаг 4: заносим сайты (и их кодировку) в базу
шаг 5: переходим на страничку подтематики и шаг 1
ПРОБЛЕМА: скрипт МОЖЕТ(!!!) зависнуть....
конкретных проблемних ситуаций нет. Может пропарсить всю тематику(полностью рекурсивноно по дереву), а может зависнуть. Одну и туже тематику парсил: завис после часа работи (порядка сотни тематик каталога и тисячи сайтов по тематиках), потом завис через 5мин( несколько тематик и пару десятков сайтов), потом пропарсил полностью.
Использую:
винда ХР профешнал 64,
пакет денвер Denwer3_Base_2008-01-13_a2.2.4_p5.2.4_m5.0.45_pma2.6.1.exe (нада РНР не више 5.3 ),
запускаю в Mozilla Firefox 3.6.6
контент сайтов и каталога беру через
пишу логи. скрипт нечего не выбрасивает: ошыбки, предупреждения.
почему виснет???? просто перестают писаться логи
возможно:
сеть - сотни конектов к разним сайтам
какойто кеш апача или мускла
может глюки провайдера
может глюки какихто РХР функций
если нужна дополнительная информация сообщу.
списибо)
Всем привет.
Написан парсер. Парсит каталог и тематические сайти по тематике каталога заносит в базу. Парсит рекурсивно: название тематики, сайты тематики, подтематики, заходит в подтематику и парсит далее...(название тематики, сайты тематики, подтематики....). также парсится каждий сайт тематики чтоб узнать его кодировку.
шаг 1: парсинг странички тематики. парсим подтематики и сайты на страничке
шаг 2: заносим название тематики в базу
шаг 3: парсим сайты для распознания кодировки
шаг 4: заносим сайты (и их кодировку) в базу
шаг 5: переходим на страничку подтематики и шаг 1
ПРОБЛЕМА: скрипт МОЖЕТ(!!!) зависнуть....
конкретных проблемних ситуаций нет. Может пропарсить всю тематику(полностью рекурсивноно по дереву), а может зависнуть. Одну и туже тематику парсил: завис после часа работи (порядка сотни тематик каталога и тисячи сайтов по тематиках), потом завис через 5мин( несколько тематик и пару десятков сайтов), потом пропарсил полностью.
Использую:
винда ХР профешнал 64,
пакет денвер Denwer3_Base_2008-01-13_a2.2.4_p5.2.4_m5.0.45_pma2.6.1.exe (нада РНР не више 5.3 ),
запускаю в Mozilla Firefox 3.6.6
контент сайтов и каталога беру через
PHP:
$fp = fsockopen($host, 80, $errno, $errstr, 5);
if($fp)
{
$out = "GET $url HTTP/1.0\n";
$out .= "Host: $host\n";
$out .= "User-Agent: Mozilla Firefox/3.6.3\n\n";
fputs($fp, $out);
$content = '';
while(!feof($fp)){
$content .= fgets($fp);
}
fclose($fp);
}
почему виснет???? просто перестают писаться логи
возможно:
сеть - сотни конектов к разним сайтам
какойто кеш апача или мускла
может глюки провайдера
может глюки какихто РХР функций
если нужна дополнительная информация сообщу.
списибо)