Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

  • Автор темы Oduvanchik
  • Дата начала

Oduvanchik

Guest
Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Вот если у меня на сервере лежит некий sample.html, и к нему из моего сайта никак не прийти. Т.е. нет возможности, по ссылкам начиная с index.html прийти к sample.html. Файл sample.html будет индексироваться?

А если у меня есть на странице index.html ссылка вида code.php?param1=0&param2=1, и больше к code.php ссылки не ведут; то будет индексироваться страница code.php или code.php?param1=0&param2=1? А если есть еще одна ссылка с index.html code.php?param1=666, то будет индексировано две страницы: code.php?param1=666 и code.php?param1=0&param2=1?

Есть ли возможность узнать про это подробнее?
 

neko

tеam neko
Oduvanchik
Есть ли возможность узнать про это подробнее?
есть
надо читать справку на сайте конкретного поисковика

нет возможности, по ссылкам начиная с index.html прийти к sample.html. Файл sample.html будет индексироваться?
встречный вопрос:
а каким образом поисковик вообще узнает о наличии "файла"? (файлов нет, кстати)

А если у меня есть на странице index.html ссылка вида code.php?param1=0&param2=1, и больше к code.php ссылки не ведут; то будет индексироваться страница code.php или code.php?param1=0&param2=1?
насколько я понимаю -- второй вариант
 

Фанат

oncle terrible
Команда форума
никак не выбирает. паук ходит по ссылкам.
это ответ на все твои вопросы.
почитать подробнее можно на сайтах пауков
 

Silent

Новичок
Re: Как поисковой паук выбирает, какие страницы ему индексировать, а какие нет?

Автор оригинала: Oduvanchik
нет возможности, по ссылкам начиная с index.html прийти к sample.html. Файл sample.html будет индексироваться?
Иногда такие файлы индексируются. А потом раздаются возмущенные крики о том, что Гугль проиндексировал "секретные" документы. На самом деле у всего есть разумные причины:

1) ссылка на внешнем сайте. Какой-нибудь человек может хранить на своем сайте нечто вроде букмарков и не закрыть эту страницу от индексирования, следовательно робот поисковика узнает и о твоей странице.

2) у меня стоит гугльбар. Следовательно Гуглю становится известно о всех страницах, которые я посещаю, даже если на нее не ведут никакие ссылки.

3) всевозможные логфайлы. Это может быть статистика сайта (обычно такие вещи закрываются паролем, но если вдруг она доступна для робота, то робот затем пройдется и по всем страницам из этого логфайла). Часто в поисковиках мне попадались логфайлы различных прокси. А в них могут быть ссылки на такие "секретные" файлы.

4) наверное есть и другие способы случайно оставить след, ведущий на такую страницу.
 

Oduvanchik

Guest
Ребята, спасибо!

Вот уж не думал, что получу исчерпывающий ответ.
 
Сверху