phalanxx
Новичок
Автоматическое распределение по разделам и отлов дубликатов
Имеется база данных с текстами на различную тематику.
Необходимо распределить тексты по рубрикам и убрать дубликаты. Простым посимвольным сравнением, конечно же, дело не решить в силу особенностей русского языка.
Я лично думаю так. Нужно взять один из текстов как эталон, а для остальных вычислить некоторые коэффициенты схожести с эталоном. Практически остается только решить, как эти коэффициенты определить.
По поводу авторубрикации. Самое очевидное - по ключевым словам. Но ключевые слова также должны быть определены автоматически. Есть алгоритм Омена определения ключевых слов - кроме него есть решения?
Имеется база данных с текстами на различную тематику.
Необходимо распределить тексты по рубрикам и убрать дубликаты. Простым посимвольным сравнением, конечно же, дело не решить в силу особенностей русского языка.
Я лично думаю так. Нужно взять один из текстов как эталон, а для остальных вычислить некоторые коэффициенты схожести с эталоном. Практически остается только решить, как эти коэффициенты определить.
По поводу авторубрикации. Самое очевидное - по ключевым словам. Но ключевые слова также должны быть определены автоматически. Есть алгоритм Омена определения ключевых слов - кроме него есть решения?