Тематика текста , нахождение схожих текстов

Voffka

Guest
Тематика текста , нахождение схожих текстов

Вобщем суть вопроса , есть много (~20000) текстов (на разные темы и что немаловажно разной длины от 10 слов до 20кб) надо определить какие из них "похожи" на отдельно взятый текст тоесть например найти похожие на 1й текст.

Ещё неаясноть с понятием "похожие" , по ключевым словам или по телепатии это определять не столь важно важен результат - чтоб то что алгоритм назовёт похожим хотябы с вероятностью 50% было действительно похожим.

Ресурсоёмкость задачи не критина тоесть до 30 сек на поиск похожего нормально.
 

Steamroller

Новичок
Для начала надо прояснить, какая именно похожесть нужна.
Если наличие одинаковых кусков текста - то это один алгоритм.
Если тексты на ту же тему - то другой совсем.
 

camka

не самка
Был один алгоритм. Заключался в нахождении ключевых слов в связном тексте. Вычислял основные слова, несущие смысловую нагрузку всего текста, причем, был достаточно прост. Но вот как он точно назывался - хоть убей, не помню. Вроде как по имени дяденьки, который его придумал. Найду - непременно сообщу.
 

Voffka

Guest
возможно вот это поможет
вобще не в тему )

Для начала надо прояснить, какая именно похожесть нужна.
тексты на туже тему , например если у нас в 1 тексте анекдоты про вовочку и в другом анекдоты про вовочку то это должно ститаться похожим , новость про новые процесоры , статья про сравнение производительности amd и intel - тоже похожее

ps у каждого текста есть заголовок но не всегда отражающий его тематику

Был один алгоритм. Заключался в нахождении ключевых слов в связном тексте. Вычислял основные слова, несущие смысловую нагрузку всего текста, причем, был достаточно прост.
кажись то что надо

и ещё довольно неплохо нахожит похожие страницы гугль жаль только что у него нельзя регулировать степень требуемой похожести
 
Сверху