Sniff
Новичок
Морфология русского языка. Подходы.
Задача стоит следующая:
Есть произвольный текст, каждое из встреченных значимых слов в любом обороте/сколении (скажем, существительные, но неважно) нужно преобразовать либо в исходную форму, либо в некую форму, которая будет одинакова для всех оборотом/склонений (например, корень слова).
Пока что решения нашел два:
1. ispell-словарь. Отличный вариант, работает как зверь - но слишком мало словоформ охватывает, использовался словарь Лебедева
2. Стеммерные алгоритмы, пытающиеся разбирать слова автоматически. Не нашел ни удачного алгоритма, ни имплементации на PHP
Есть идеи/опыт/комментарии?
Задача стоит следующая:
Есть произвольный текст, каждое из встреченных значимых слов в любом обороте/сколении (скажем, существительные, но неважно) нужно преобразовать либо в исходную форму, либо в некую форму, которая будет одинакова для всех оборотом/склонений (например, корень слова).
Пока что решения нашел два:
1. ispell-словарь. Отличный вариант, работает как зверь - но слишком мало словоформ охватывает, использовался словарь Лебедева
2. Стеммерные алгоритмы, пытающиеся разбирать слова автоматически. Не нашел ни удачного алгоритма, ни имплементации на PHP
Есть идеи/опыт/комментарии?