dub
Новичок
Выбор 10-ти наиболее часто встречающихся слов в тексте.
Проблема: есть текст, необходимо выбрать из него 10 слов наиболее часто повторяющихся в нем, желательно учитывать префиксы, суфиксы, также учесть стоп слова("и", "в","или"....). Текст находится в базе MySql. Вопрос: Каким образом решить эту проблему наиболее оптимально(относительно скорости работы)?
Пока вижу только одно решение выбрать текст, удалить стоп слова (к стати, встрачал ли кто списочек этих слов для русского языка?), разбить текст на слова explode(" ", $text);, положить слова в массив и дальше array_search() по массиву считаем одинаковые слова c учетом префиксов суфиксов. ложим результат в массив['слово'] = sum. переходим к следующему элементу. потом из результирующего массива выбираем 10 ключей где sum наибольшее. Можно еще сделать подсчет слов с использованием array_count_values() - но как тут быть с префиксами суфиксами?
Может кто видел готовые решения, или решал подобные задачи?
Проблема: есть текст, необходимо выбрать из него 10 слов наиболее часто повторяющихся в нем, желательно учитывать префиксы, суфиксы, также учесть стоп слова("и", "в","или"....). Текст находится в базе MySql. Вопрос: Каким образом решить эту проблему наиболее оптимально(относительно скорости работы)?
Пока вижу только одно решение выбрать текст, удалить стоп слова (к стати, встрачал ли кто списочек этих слов для русского языка?), разбить текст на слова explode(" ", $text);, положить слова в массив и дальше array_search() по массиву считаем одинаковые слова c учетом префиксов суфиксов. ложим результат в массив['слово'] = sum. переходим к следующему элементу. потом из результирующего массива выбираем 10 ключей где sum наибольшее. Можно еще сделать подсчет слов с использованием array_count_values() - но как тут быть с префиксами суфиксами?
Может кто видел готовые решения, или решал подобные задачи?
