Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Oduvanchik · 7 Янв 2005

Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Вот если у меня на сервере лежит некий sample.html, и к нему из моего сайта никак не прийти. Т.е. нет возможности, по ссылкам начиная с index.html прийти к sample.html. Файл sample.html будет индексироваться?

А если у меня есть на странице index.html ссылка вида code.php?param1=0&param2=1, и больше к code.php ссылки не ведут; то будет индексироваться страница code.php или code.php?param1=0&param2=1? А если есть еще одна ссылка с index.html code.php?param1=666, то будет индексировано две страницы: code.php?param1=666 и code.php?param1=0&param2=1?

Есть ли возможность узнать про это подробнее?

neko · 7 Янв 2005

Oduvanchik

Есть ли возможность узнать про это подробнее?

есть
надо читать справку на сайте конкретного поисковика

нет возможности, по ссылкам начиная с index.html прийти к sample.html. Файл sample.html будет индексироваться?

встречный вопрос:
а каким образом поисковик вообще узнает о наличии "файла"? (файлов нет, кстати)

А если у меня есть на странице index.html ссылка вида code.php?param1=0&param2=1, и больше к code.php ссылки не ведут; то будет индексироваться страница code.php или code.php?param1=0&param2=1?

насколько я понимаю -- второй вариант

Фанат · 7 Янв 2005

никак не выбирает. паук ходит по ссылкам.
это ответ на все твои вопросы.
почитать подробнее можно на сайтах пауков

sakon · 7 Янв 2005

Ответы яндекса:
http://webmaster.yandex.ru/faq.xml

Kirs · 7 Янв 2005

Oduvanchik
http://searchengines.ru/

Silent · 7 Янв 2005

Re: Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Автор оригинала: Oduvanchik
нет возможности, по ссылкам начиная с index.html прийти к sample.html. Файл sample.html будет индексироваться?

Иногда такие файлы индексируются. А потом раздаются возмущенные крики о том, что Гугль проиндексировал "секретные" документы. На самом деле у всего есть разумные причины:

1) ссылка на внешнем сайте. Какой-нибудь человек может хранить на своем сайте нечто вроде букмарков и не закрыть эту страницу от индексирования, следовательно робот поисковика узнает и о твоей странице.

2) у меня стоит гугльбар. Следовательно Гуглю становится известно о всех страницах, которые я посещаю, даже если на нее не ведут никакие ссылки.

3) всевозможные логфайлы. Это может быть статистика сайта (обычно такие вещи закрываются паролем, но если вдруг она доступна для робота, то робот затем пройдется и по всем страницам из этого логфайла). Часто в поисковиках мне попадались логфайлы различных прокси. А в них могут быть ссылки на такие "секретные" файлы.

4) наверное есть и другие способы случайно оставить след, ведущий на такую страницу.

Oduvanchik · 8 Янв 2005

Ребята, спасибо!

Вот уж не думал, что получу исчерпывающий ответ.

Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Oduvanchik

Guest

neko

tеam neko

Фанат

oncle terrible

sakon

П..и.н..ок

Kirs

Fireman

Silent

Новичок

Oduvanchik

Guest