Cramac
Новичок
Как научить бота разбирать ссылки.
Всем привет.
подскажите в таком вопросе.
У меня есть бот, он ходит по сайту и смотрит содержимое, потом переходит по ссылкам.
Так вот бот может спокойно ходить в пределах корня домена или папки. А вот войдя в паку он из нее не может выйти.
Вот пример:
Может сделать так:
domain.ru -> domain.ru/page.php -> domain.ru/page2.php -> domain.ru/link/page.php
но если на странице domain.ru/link/page.php
попадется ссылка выше на уровень, бот этого не поймет.
Переход делаю так:
пока понимает ссылки вида:
<a href=page.php>page</a>
и
<a href=link/page.php>page</a>
Но хотелось бы сделать универсального чтоб понимал и ссылки вида:
<a href=http://www.domain.ru/page.php>page</a>
Всем привет.
подскажите в таком вопросе.
У меня есть бот, он ходит по сайту и смотрит содержимое, потом переходит по ссылкам.
Так вот бот может спокойно ходить в пределах корня домена или папки. А вот войдя в паку он из нее не может выйти.
Вот пример:
Может сделать так:
domain.ru -> domain.ru/page.php -> domain.ru/page2.php -> domain.ru/link/page.php
но если на странице domain.ru/link/page.php
попадется ссылка выше на уровень, бот этого не поймет.
Переход делаю так:
PHP:
$fp = fsockopen($host,80, &$errno, &$errstr);
if(!$fp) { echo "<br>\n"; }
else
{
fputs($fp,"GET $page HTTP/1.0\n\n");
while(!feof($fp)) { $page.=fgets($fp,128); }
fclose($fp);
}
<a href=page.php>page</a>
и
<a href=link/page.php>page</a>
Но хотелось бы сделать универсального чтоб понимал и ссылки вида:
<a href=http://www.domain.ru/page.php>page</a>