Voffka
Guest
Тематика текста , нахождение схожих текстов
Вобщем суть вопроса , есть много (~20000) текстов (на разные темы и что немаловажно разной длины от 10 слов до 20кб) надо определить какие из них "похожи" на отдельно взятый текст тоесть например найти похожие на 1й текст.
Ещё неаясноть с понятием "похожие" , по ключевым словам или по телепатии это определять не столь важно важен результат - чтоб то что алгоритм назовёт похожим хотябы с вероятностью 50% было действительно похожим.
Ресурсоёмкость задачи не критина тоесть до 30 сек на поиск похожего нормально.
Вобщем суть вопроса , есть много (~20000) текстов (на разные темы и что немаловажно разной длины от 10 слов до 20кб) надо определить какие из них "похожи" на отдельно взятый текст тоесть например найти похожие на 1й текст.
Ещё неаясноть с понятием "похожие" , по ключевым словам или по телепатии это определять не столь важно важен результат - чтоб то что алгоритм назовёт похожим хотябы с вероятностью 50% было действительно похожим.
Ресурсоёмкость задачи не критина тоесть до 30 сек на поиск похожего нормально.