Как создать "похожие темы"

HraKK · 22 Фев 2011

просто исключить из результата саму тему по которой проводится поиск

и что даст?

Вот у меня есть 2 статьи "Путин проехался на Ладе калине" и "Путин слетал на вертолете" как релевантный поиск даст профит?

MiksIr · 22 Фев 2011

HraKK написал(а):
и что даст?

Вот у меня есть 2 статьи "Путин проехался на Ладе калине" и "Путин слетал на вертолете" как релевантный поиск даст профит?

Это зависит от того, какие еще статьи в базе. На первое место пойдет "Путин сломал две Лады калины", потом "Лады калины ломаются, если на них проехаться", а потом, может, и до вертолета дойдет.

А то, что вы хотите сказать - это уже выходит за рамки банальных "похожих тем", это уже ближе к склейке новостных сюжетов. Яндекс несколько лет назад делал доклад о том, как они это делают. Но это не совсем подойдет для форума, ибо новости, как правило, более структурированы - там есть "когда" и "кто" - вполне словарное, и "что" - уже, наверно, по релевантности.

HraKK · 22 Фев 2011

Яндекс несколько лет назад делал доклад о том, как они это делают.

я думаю там нереально неэпический алгоритм. Что нам простым смердам не осигнуть. Поэтому просто по вычленению наиболее встречаемых слов, вполне юзабельно.

MiksIr · 22 Фев 2011

В корне алгоритма там те же самые словари - имена людей, названия организаций, география.
А релевантность учитывает и частоту слова

Так что "просто по вычленению наиболее встречаемых слов" - есть так же самая релевантность, просто кастрированная.
Сфинкс просто позволит сделать все быстро - построить индекс, получить частотку слов, которую можно посмотреть выкинуть вредные слова... напрмер, в форуме по программированию на PHP имеет смысл добавить в стоп "программирование" и "PHP"

Не спорю, что заточенный на определенную тематику форума словарь может дать лучший результат, но это будет кастомное решение под конкретный форум и весьма трудоемкое (построение словаря). И не будет вообще работать, если в открытой теме нет слов из словаря или их очень мало.

HraKK · 22 Фев 2011

а что за индекс?

MiksIr · 22 Фев 2011

Ум? Не понял вопроса. Индекс есть индекс: слово --> документы.

Как создать "похожие темы"

HraKK

Мудак

MiksIr

miksir@home:~$

HraKK

Мудак

MiksIr

miksir@home:~$

HraKK

Мудак

MiksIr

miksir@home:~$