Автоматическое распределение по разделам и отлов дубликатов

phalanxx · 7 Июл 2005

Автоматическое распределение по разделам и отлов дубликатов

Имеется база данных с текстами на различную тематику.
Необходимо распределить тексты по рубрикам и убрать дубликаты. Простым посимвольным сравнением, конечно же, дело не решить в силу особенностей русского языка.

Я лично думаю так. Нужно взять один из текстов как эталон, а для остальных вычислить некоторые коэффициенты схожести с эталоном. Практически остается только решить, как эти коэффициенты определить.

По поводу авторубрикации. Самое очевидное - по ключевым словам. Но ключевые слова также должны быть определены автоматически. Есть алгоритм Омена определения ключевых слов - кроме него есть решения?

Tor · 8 Июл 2005

вычислить некоторые коэффициенты схожести

mysql: against

ключевые слова также должны быть определены автоматически

самый простой вариант - число вхождений слова, плюс выкинуть мелкие и всякие паразиты

phalanxx · 8 Июл 2005

Автор оригинала: Tor
mysql: against

Можешь ссылку на мануал дать? А то что-то не найду.

самый простой вариант - число вхождений слова, плюс выкинуть мелкие и всякие паразиты

Ну да, алгоритм Омена и есть. Выкидываем мелоч, нормализуем, считаем вхождения. Потом отбрасываем самое встречающееся и самое редкое слово, а из оставшихся выбираем 5-10.

Tor · 8 Июл 2005

http://dev.mysql.com/doc/mysql/ru/fulltext-search.html

phalanxx · 8 Июл 2005

Автор оригинала: Tor
http://dev.mysql.com/doc/mysql/ru/fulltext-search.html

Спасибо.
Судя по тому, что написано в мануале, искать можно только слово в тексте и вычислить релевантность относительно этого слова. Задача состоит в том, чтобы сравнить тексты. Если сравнивать с помошью вот этого, то никаких ресурсов не хватит, а текстов будет не 5 и не 10...
Вообще говоря, еще неизвестно, на чем это будет реализовано - на ПХП или на C++. Поэтому нужен алгоритм, а не функция.

Tor · 8 Июл 2005

искать можно только слово в тексте и вычислить релевантность относительно этого слова

читаем еще раз

Если сравнивать с помошью вот этого, то никаких ресурсов не хватит

тебе же это один раз сделать нужно
или задача высосана из пальца?

kvf77 · 8 Июл 2005

phalanxx
сколько ты тут времени тратишь - давно в ручную можно было бы рассортировать - и быстрее и надежнее алгоритмов. Раз ты просишь алгоритм - сдается мне это многоразовая работа - тогда возникает вопрос - нахрена тусить такое кол-во информации многократно? в общем - тут явно какая-то фишка о которой ты скромно умалчиваешь

phalanxx · 8 Июл 2005

Автор оригинала: kvf77
phalanxx
сколько ты тут времени тратишь - давно в ручную можно было бы рассортировать - и быстрее и надежнее алгоритмов.

От меня это не зависит. Дали задание - написать скрипт на PHP (или программу на C++), умеющий автоматически рассовывать тексты по рубрикам и удалять дубликаты из базы данных.

Автор оригинала: kvf77
Раз ты просишь алгоритм - сдается мне это многоразовая работа - тогда возникает вопрос - нахрена тусить такое кол-во информации многократно?

Твои предложения?

Автор оригинала: kvf77
в общем - тут явно какая-то фишка о которой ты скромно умалчиваешь

Ты ошибаешься.

Автоматическое распределение по разделам и отлов дубликатов

phalanxx

Новичок

Tor

Новичок

phalanxx

Новичок

Tor

Новичок

phalanxx

Новичок

Tor

Новичок

kvf77

Red Devil

phalanxx

Новичок