индексация страниц с сессиями

Motor

Guest
Можно ли на стороне поискового сервера сделать так, чтоб при скачке страниц ссылки были "чистые"?
Индексация осуществляется на PHP.
 

Motor

Guest
Сессия приходит в HTTP заголовке:

HTTP/1.1 200 OK
Date: Mon, 03 Jan 2005 08:56:38 GMT
Server: Apache
Set-Cookie: session_id=4d9f70ca004670184df6e7f3781ba43a; path=/
Connection: close
Transfer-Encoding: chunked
Content-Type: text/html;
charset=windows-1251

Т.е. надо при получении документа вырезать Set-Cookie или как?
 

Фанат

oncle terrible
Команда форума
Мотор, скажи, чем ты руководствовался, когда поднимал тему двухгодичной давности, которая не имеет отношения к твоему вопросу?
Чем ты руководствовался, когда залдавал свой вопрос стольк невнятно, что почти никто его понять не может?

Первое я за тебя исправил, а над вторым тебе придется самостоятельно попотеть.

Что ты делаешь.
с какими проблемами столкнулся.
Как пытался решать.
что у тебя вышло.
 

Motor

Guest
Я пишу поисковый движок (индексатор) на PHP. Вроде шло все хорошо, но при индексировании форума Invision Power Board v2 возникла проблема, все ссылки получаються с session_id.

В браузере после первого захода и регистрации создаеться кук и после этого ссылки приобретают нормальный вид. Но PHP как я понимаю не поддерживает куки как клиент. И из-за этого форум всегда будет пихать номер сессии в ссылки, потому что больше нет друго способа их сохранять.
И я не понимаю можно ли на стороне только сервера сделать так чтоб в ответе форума на запрос игнорировались куки. Или надо писать аналог браузера (т.е. его работу с сессиями)? Хотя бы скажите в
каком направлении идти.

Единственное решение которое я придумал это считывать SID из http заголовка и потом вырезать лишнее из ссылок.
 

SiMM

Новичок
Автор оригинала: Motor
Единственное решение которое я придумал это считывать SID из http заголовка и потом вырезать лишнее из ссылок.
Хотя бы. Правда зачем здесь анализировать заголовки, если речь идёт об одном конкретновзятом форуме, поскольку имя сессии не меняется. Или просто передавать куку с SID'ом - тогда "удалять" SID'ы из принятого контента не придётся.
 

Motor

Guest
Все дело в том, что форумов много и на разных движках. Неужели это единственный выход? Интересно как эту
проблему решают большие поисковые системы?
 

SiMM

Новичок
Motor, тебе предложили два варианта на вкус и цвет - и чем тебя вариант с эмуляцией кук не устраивает? Для простоты первый запрос, в случае, если тебе кидают куки, можно дублировать, чтобы получить контент уже без SID'ов.
 
Сверху