Автоматическое распределение по разделам и отлов дубликатов

phalanxx

Новичок
Автоматическое распределение по разделам и отлов дубликатов

Имеется база данных с текстами на различную тематику.
Необходимо распределить тексты по рубрикам и убрать дубликаты. Простым посимвольным сравнением, конечно же, дело не решить в силу особенностей русского языка.

Я лично думаю так. Нужно взять один из текстов как эталон, а для остальных вычислить некоторые коэффициенты схожести с эталоном. Практически остается только решить, как эти коэффициенты определить.

По поводу авторубрикации. Самое очевидное - по ключевым словам. Но ключевые слова также должны быть определены автоматически. Есть алгоритм Омена определения ключевых слов - кроме него есть решения?
 

phalanxx

Новичок
Автор оригинала: Tor
mysql: against
Можешь ссылку на мануал дать? А то что-то не найду.
самый простой вариант - число вхождений слова, плюс выкинуть мелкие и всякие паразиты
Ну да, алгоритм Омена и есть. Выкидываем мелоч, нормализуем, считаем вхождения. Потом отбрасываем самое встречающееся и самое редкое слово, а из оставшихся выбираем 5-10.
 

phalanxx

Новичок
Спасибо.
Судя по тому, что написано в мануале, искать можно только слово в тексте и вычислить релевантность относительно этого слова. Задача состоит в том, чтобы сравнить тексты. Если сравнивать с помошью вот этого, то никаких ресурсов не хватит, а текстов будет не 5 и не 10...
Вообще говоря, еще неизвестно, на чем это будет реализовано - на ПХП или на C++. Поэтому нужен алгоритм, а не функция.
 

Tor

Новичок
искать можно только слово в тексте и вычислить релевантность относительно этого слова
читаем еще раз

Если сравнивать с помошью вот этого, то никаких ресурсов не хватит
тебе же это один раз сделать нужно
или задача высосана из пальца?
 

kvf77

Red Devil
phalanxx
сколько ты тут времени тратишь - давно в ручную можно было бы рассортировать - и быстрее и надежнее алгоритмов. Раз ты просишь алгоритм - сдается мне это многоразовая работа - тогда возникает вопрос - нахрена тусить такое кол-во информации многократно? в общем - тут явно какая-то фишка о которой ты скромно умалчиваешь
 

phalanxx

Новичок
Автор оригинала: kvf77
phalanxx
сколько ты тут времени тратишь - давно в ручную можно было бы рассортировать - и быстрее и надежнее алгоритмов.
От меня это не зависит. Дали задание - написать скрипт на PHP (или программу на C++), умеющий автоматически рассовывать тексты по рубрикам и удалять дубликаты из базы данных.

Автор оригинала: kvf77
Раз ты просишь алгоритм - сдается мне это многоразовая работа - тогда возникает вопрос - нахрена тусить такое кол-во информации многократно?
Твои предложения?

Автор оригинала: kvf77
в общем - тут явно какая-то фишка о которой ты скромно умалчиваешь
Ты ошибаешься.
 
Сверху