Как создать "похожие темы"

HraKK

Мудак
Команда форума
просто исключить из результата саму тему по которой проводится поиск
и что даст?

Вот у меня есть 2 статьи "Путин проехался на Ладе калине" и "Путин слетал на вертолете" как релевантный поиск даст профит?
 

MiksIr

miksir@home:~$
и что даст?

Вот у меня есть 2 статьи "Путин проехался на Ладе калине" и "Путин слетал на вертолете" как релевантный поиск даст профит?
Это зависит от того, какие еще статьи в базе. На первое место пойдет "Путин сломал две Лады калины", потом "Лады калины ломаются, если на них проехаться", а потом, может, и до вертолета дойдет.

А то, что вы хотите сказать - это уже выходит за рамки банальных "похожих тем", это уже ближе к склейке новостных сюжетов. Яндекс несколько лет назад делал доклад о том, как они это делают. Но это не совсем подойдет для форума, ибо новости, как правило, более структурированы - там есть "когда" и "кто" - вполне словарное, и "что" - уже, наверно, по релевантности.
 

HraKK

Мудак
Команда форума
Яндекс несколько лет назад делал доклад о том, как они это делают.
я думаю там нереально неэпический алгоритм. Что нам простым смердам не осигнуть. Поэтому просто по вычленению наиболее встречаемых слов, вполне юзабельно.
 

MiksIr

miksir@home:~$
В корне алгоритма там те же самые словари - имена людей, названия организаций, география.
А релевантность учитывает и частоту слова ;) Так что "просто по вычленению наиболее встречаемых слов" - есть так же самая релевантность, просто кастрированная.
Сфинкс просто позволит сделать все быстро - построить индекс, получить частотку слов, которую можно посмотреть выкинуть вредные слова... напрмер, в форуме по программированию на PHP имеет смысл добавить в стоп "программирование" и "PHP" :) Не спорю, что заточенный на определенную тематику форума словарь может дать лучший результат, но это будет кастомное решение под конкретный форум и весьма трудоемкое (построение словаря). И не будет вообще работать, если в открытой теме нет слов из словаря или их очень мало.
 

MiksIr

miksir@home:~$
Ум? Не понял вопроса. Индекс есть индекс: слово --> документы.
 
Сверху