WP
^_^
[webspider] Проблема элементов управления.
Поиск у меня реализован с использованием индексации по средствам паука. Столкнулся с проблемой повторящихся страниц с разными URL, и БД засоряется сотнями ненужных данных. Например, URL'ы отличаются лишь присутствием "/" на конце, но это вариант банальный, и рассматривать его не стоит. Куда сложнее с параметрами вроде sort и order. Мне видятся два варианта решения проблемы. Либо фильтровать в ссылках многие параметры, но минусом такого метода является отсутствие универсальности, и необходимость добавлять в фильтр новые параметры. Либо же проверять уникален ли текст страницы. Естественно страницы динамические, и точного совпадения ждать не приходится, и искать по огромной базе дорого. Интересно, как с этой задачей справляются веб-поисковики? Ведь у них нет первого варианта, т.к. шаблонов очень очень много, а второй вариант дает высокую вероятность ошибки, и по базе сверять сложно. О, третий вариант, под {if !$_indexation_version}{/if} загнать все ссылки на сортировку, и прочее, робот же передает User-agent свой, а в скрипте его ловим, или можно сделать по onclick.
Какие будут мнения?
Спасибо.
Поиск у меня реализован с использованием индексации по средствам паука. Столкнулся с проблемой повторящихся страниц с разными URL, и БД засоряется сотнями ненужных данных. Например, URL'ы отличаются лишь присутствием "/" на конце, но это вариант банальный, и рассматривать его не стоит. Куда сложнее с параметрами вроде sort и order. Мне видятся два варианта решения проблемы. Либо фильтровать в ссылках многие параметры, но минусом такого метода является отсутствие универсальности, и необходимость добавлять в фильтр новые параметры. Либо же проверять уникален ли текст страницы. Естественно страницы динамические, и точного совпадения ждать не приходится, и искать по огромной базе дорого. Интересно, как с этой задачей справляются веб-поисковики? Ведь у них нет первого варианта, т.к. шаблонов очень очень много, а второй вариант дает высокую вероятность ошибки, и по базе сверять сложно. О, третий вариант, под {if !$_indexation_version}{/if} загнать все ссылки на сортировку, и прочее, робот же передает User-agent свой, а в скрипте его ловим, или можно сделать по onclick.
Какие будут мнения?
Спасибо.