поисковики сканирует сервера с целью занесения в свою базу инфы о страничках.
Вопрос: посредством каких протоколов и использования каких средств пхп можно отсканить структуру файлов чужого сервера? Как обойти .htacess для получения доступа к файлам?


prodigy-одаренный ребенок
никаким, если не ломать сервер.
поисковик идет на главную страницу (по хттп) и выкачивает док, потом скинаи его и идет по всем ссылкам и т.п.

да. и еще. УВАЖАЙТЕ robots.txt


Есть ли у кого-то информация об алгоритме работы поисковика? Т.е. в каком именно виде хранится информация в БД т.е. например вся страничка целиком, только ключевые слова или первые Х символов...


Поисковики хранят то, что считают нужным. Большинство хранит гораздо больше, чем вы думаете. А алгоритм работы у всех разный и в большинстве случаев совсем-совсем секретный.


Больше чем нужно? Я думаю им стоить хранить наоборот минимум и самого полезного.


Щас, чтобы обеспечить необходимую скорость приходиться хранить избыточную инфу + всякие кеши, хеши и т.д.


Если кому интересна теория поиска в сети:
Угу. А некоторые в добавок к индексированным словам хранят страницы целиком.