MagicGTS
Новичок
Поиск максимально похожих текстовых данных
Вот такая задачка образовалась. Как определить на сколько сообщение от пользователя похоже на сообщения уже присутствующие в базе? Пробывал полнотекстовый поиск, но мне несовсем ясно получаемое значение релевантности.
После какого порога можно считать результат действительно похожим? Пробывал поиск как с короткими текстами (5-7 слов) так и длинными (40 и более). При этом при поиске в коротких предложениях при поиске действительно одинаковых данных получал значение чуть выше 20, а при длинных за 100.
При этом поиск типа LIKE (100% соответствие искомому) не подходит, так как сообщения могут незначительно отличаться (несколько слов изменены).
Есть какие нибудь идеи? Делать смопальный индексатор нехочется...
Вот такая задачка образовалась. Как определить на сколько сообщение от пользователя похоже на сообщения уже присутствующие в базе? Пробывал полнотекстовый поиск, но мне несовсем ясно получаемое значение релевантности.
После какого порога можно считать результат действительно похожим? Пробывал поиск как с короткими текстами (5-7 слов) так и длинными (40 и более). При этом при поиске в коротких предложениях при поиске действительно одинаковых данных получал значение чуть выше 20, а при длинных за 100.
При этом поиск типа LIKE (100% соответствие искомому) не подходит, так как сообщения могут незначительно отличаться (несколько слов изменены).
Есть какие нибудь идеи? Делать смопальный индексатор нехочется...