leptosomic
Новичок
скажите, существует ли возможность получить словоформы, образующиеся с помощью добавления приставок и окончаний? например, "бить-прибить-подбить-биться"?
Вообще лучше так не делать. Смысл повышать полноту в ущерб релевантности?Скажем, в запросе присутствует слово "матрос". Получаем все словоформы, и ищем их в тексте. И "матросика" не находим, хотя по идее должны.
Если только на самом простейшем уровне. Дело в том, что в словаре словоформы не разделяются на морфы, вместо этого используется упрощенная модель типа "префикс+основа+окончание". Причем основа выделяется как lcs для словоформ в парадигме.Можно это сделать хотя бы теоретически на этом словаре?
Большое вам спасибо, теперь скачиваетсяАвтор оригинала: Жигaн
перезалил. сейчас должно быть всё в порядке.
При работе со словарем ISPELL происходят непонятные вещи:
(http://phpmorphy.sourceforge.net/dokuwi ... ct_by_db=1)
- анализ слова "продажа" выдает:
Слово продажа найдено в словаре как:
1. Базовая форма ПРОДАЖА
Продажа - продажа, продажах, продажам, продажами, продаж, продаже, продажи, продажу
Считаю, что это в корне не правильно, т.к.
Им. п. (Кто? Что?)- продажа
Род.п. (Кого? Чего?)- продаж
Дат.п. (Кому? Чему?)- продаже
Вин.п. (Кого? Что?) - продажу
Твор.п. (Кем? Чем?) - продажей
Пред.п. (О ком? О чём?) - о продаже
т.е. в словаре, на который опирается анализ неправильно внесены значения для морфологических форм данного слова.
Я бы даже сказал, что большая часть из предложенных вариантов употреблена во множественном числе.
- анализ слова "продажей" вообще выдает не понятно что:
Слово продажей найдено в словаре как:
1. Базовая форма ПРОДАЖЕЙ
Продажей - продажей, продажею
Я не утверждаю, что Вами составлен не правильный словарь, т.к. Вы можете и не иметь никакого отношения к его составлению,
но ошибка обнаружена и замалчивать о ней не вижу никакого смысла. Возможно, даже получится ее как-то исправить.
Ожидаю Ваш ответ "используйте AOT", но AOT не подходит нам по ряду особенностей(
С ISPELL'ом все нормально работает, за исключением данной ситуации.
Заранее благодарен за ответ.
Андрей
Похоже что уведомления о новых сообщений мне не доходят. Лучше писать либо сюда, либо на [email protected] .написал пару дней назад топик на SF(http://sourceforge.net/apps/phpbb/p...352449c397d1b8a), но там, видимо, автор появляется не часто...
решил попробовать продублировать тут
Тут имхо ничего сделать нельзя. Я в общем-то никак не обрабатываю испеловский словарь, просто преобразовываю в свой формат.продажа/I
продажей/H
А вот это было бы здоров провернуть... откорректировать словарь под свои "корпоративные" правила...Автор оригинала: Жигaн
К примеру, размер аотовского словаря можно уменьшить если выкинуть из него грамматические описания (как в ispell).
Это нормально т.к. аотовский словарь более полный нежели словарь на основе ispell.Проблема в том, что АОТ словарь для многих слов возвращает множество базовых форм, причем даже при использовании частотных справочников главным выбирается не то, что действительно нужно.
Это ошибки в словаре, там большая часть прилагательных определена как качественные. С одной стороны их надо исправить, но в реальности такие формы могут присутствовать в тексте. Конкретно для _ВАННЫЙ_ ессно надо удалить краткую степень и сравнительные формы. Как сделаю поддержку пользовательских словарей, проведу чистку на основе чатотного словаря.Кстати, если не затруднит, объясните пож-та, почему в словаре АОТ при анализе слова "ВАННА" выдается 2 базовых формы, причем первой (и как я понимаю, основной и чаще используемой) является прилагательное "ВАННАЯ" вместо существительного "ВАННА"? Может это я чего-то не понимаю...
Нет порядок лемм никак не определен. Т.е. первая - не значит лучшая.и как я понимаю, основной и чаще используемой
К сожалению, частотный словарь не панацеяКак сделаю поддержку пользовательских словарей, проведу чистку на основе чатотного словаря.
Значит, как говорится, будем ждать обновленийНо пока у меня нет времени заниматься этой проблемой.
Русский язык уж слишком сложен, чтобы придумать универсальные правилаВсем привет!
Столкнулся с проблемой, что в текстах встречается большое количество имен аниме персонажей. Например, женское имя Коната, которое морфи считает родственным слову "канат", а форму Конатой считает склонением прилагательного "конатая", в результате чего леммы получаются разные. Решил, что для известных слов буду индексировать леммы, а для неизвестных - псевдокорни. Попробовал словарь AOT - уж очень он умный... Для имени Судзумия придумывает огромное количество словоформ, среди которых встречается даже СУДЗУМЬЕ, в итоге для разных вариантов псевдокорень получается то СУДЗУМИ, то СУДЗУМ. Словарь ISPELL такими заумствами не страдает и в принципе меня всем устраивает, кроме одного: не обрабатывает словарное слово "окон". Кажется, уж настолько христоматийный пример, а он его не знает. Мне по большому счету это не так важно, но людям, которые занимаются "установкой окон", должно быть обидно. =) Можно ли это слово как-то внести в словарь?
Жду поддержку пользовательских словарей. Конечно, совсем круто было бы сделать интерфейс для обучения словаря новым словам, по принципу: склоняй "Коната" аналогично слову "Лопата", но это уже мечты. Все равно отличная штука этот ваш phpmorphy! Спасибо! =)