fisher
накатила суть
ответ Demiurg'у про поисковики
это ответ на вопрос из треда
http://www.phpclub.net/talk/showthread.php?s=&threadid=40529&rand=15
в котором мы зашли слишком далеко.
помойка тут при том, что мы часто при поиске находим мягко говоря совсем не то, что ищем. вкратце, для обычного индексатора, скачавшего страницу по хттп, порядок выдаваемых результатов (и релевантность поиска) определяется неким вектором словоформ со страницы. пусть есть один и тот же часто встречаемый набор поисковых слов и пусть найдется нескольких тысяч документов, у которых имеются одинаковые наборы образующих словоформ в тексте. тогда для индексатора эти документы в-общем одинаково удовлетворяют запросу и их оказывается невозможным разделить, что разумеется снижает релевантность, т.к. в каком качестве эти слова попали на страницу - иди знай. в то же время объекты базы, "породившие" данные для страницы имеют куда "больше информации", которая на эту самую релевантность может существенно повлиять. для массовых поисковиков - гугла, яндекса и т.д., для которых "порождающие объекты" - это черный ящик, а самих объектов несчетное множество - ничего не остается делать как решать в некотором смысле обратную задачу, чтобы релевантность повысить, и в ход идут совершенно иные методы. для маленького сайта васи пупкина, для которого вероятность встретить тысячи документов с одинаковыми наборами словоформ, по которым пользователь хочет поискать - это тоже не актуально. но для проектов крупнее, особенно для тех, где нужна _оперативная_ синхронизация поискового индекса с объектами базы - этот подход вполне оправдан. в-общем, это весьма долгий разговор, я серьезно. комплекс всяких факторов, влиющих на это дело значительно шире обсуждавшихся нами. и хотя максимально жесткая привязка ключевых слов и объектов базы - это не единственный способ повысить релевантность и эффективность поиска, надеюсь, я тебя все же убедил в правомочности метода.
касательно личного опыта - да, мне приходилось использовать подобный подход, он очень удобный имхо
это ответ на вопрос из треда
http://www.phpclub.net/talk/showthread.php?s=&threadid=40529&rand=15
в котором мы зашли слишком далеко.
помойка тут при том, что мы часто при поиске находим мягко говоря совсем не то, что ищем. вкратце, для обычного индексатора, скачавшего страницу по хттп, порядок выдаваемых результатов (и релевантность поиска) определяется неким вектором словоформ со страницы. пусть есть один и тот же часто встречаемый набор поисковых слов и пусть найдется нескольких тысяч документов, у которых имеются одинаковые наборы образующих словоформ в тексте. тогда для индексатора эти документы в-общем одинаково удовлетворяют запросу и их оказывается невозможным разделить, что разумеется снижает релевантность, т.к. в каком качестве эти слова попали на страницу - иди знай. в то же время объекты базы, "породившие" данные для страницы имеют куда "больше информации", которая на эту самую релевантность может существенно повлиять. для массовых поисковиков - гугла, яндекса и т.д., для которых "порождающие объекты" - это черный ящик, а самих объектов несчетное множество - ничего не остается делать как решать в некотором смысле обратную задачу, чтобы релевантность повысить, и в ход идут совершенно иные методы. для маленького сайта васи пупкина, для которого вероятность встретить тысячи документов с одинаковыми наборами словоформ, по которым пользователь хочет поискать - это тоже не актуально. но для проектов крупнее, особенно для тех, где нужна _оперативная_ синхронизация поискового индекса с объектами базы - этот подход вполне оправдан. в-общем, это весьма долгий разговор, я серьезно. комплекс всяких факторов, влиющих на это дело значительно шире обсуждавшихся нами. и хотя максимально жесткая привязка ключевых слов и объектов базы - это не единственный способ повысить релевантность и эффективность поиска, надеюсь, я тебя все же убедил в правомочности метода.
касательно личного опыта - да, мне приходилось использовать подобный подход, он очень удобный имхо