поиск: корректное образование словоформ фамилий - предлагаю потестировать подход

fisher

накатила суть
поиск: корректное образование словоформ фамилий - предлагаю потестировать подход

короче, идея родилась достаточно давно, но руки до неё дошли только на праздниках ;). речь об rus-ispell и ему подобных словарях, которые используются во всеми любимых поисковиках mnogosearch и htdig для морфологии.

проблема в-общем касается крупных проектов (в первую очередь новостных), для которых адекватна проблема поиска всех материалов с упоминанием персон по фамилии. если у вас многосерч или htdig или любой другой ispell-ориентированный движок - вы неминуемо столкнетесь с проблемой образования словоформ фамилий и расширения словаря наиболее часто упоминаемыми фамилиями.

если расширение словаря не есть очень большая проблема, то применение оригинальных правил склонения всяких фамилий именно в той группировке, в которой она есть у Лебедева, на мой скромный взгляд, дает либо неполный набор словоформ, либо вообще конфуз.

мне это не понравилось, и я решил поиграться. результаты можно скачать тут
http://fisher5.port5.com/fam-aff.zip
состоит из слегка переделанного файла правил словообразования, маленькой PHP-библиотеки и скрипта, который прогоняет процедуру образования словоформ на наборе тестовых фамилий. тестовый набор каждый может менять произвольно. версия исключительно иллюстративная, склоняет только из базовой формы (т.е. из именительного падежа), но ничего другого и не требуется, т.к. главное тут тест правил словообразования. эти правила потом каждый сам может добавить к своему движку.

кому проблема интересна - качайте, играйтесь и давайте обсудим.
 

Silent

Новичок
А при добавлении новых правил к реальному affix-файлу никаких сюрпризов не случится? Вообще, не лень было составлять этот файл? Я как то попробовал добавить новую словоформу в испелл, но сразу получил лишние словоформы для других слов. После чего стал отказываться от affix-файла в том виде, в каком он используется в испелл, преобразуя его в более удобоваримый формат.
 

fisher

накатила суть
Автор оригинала: Silent
А при добавлении новых правил к реальному affix-файлу никаких сюрпризов не случится? Вообще, не лень было составлять этот файл? Я как то попробовал добавить новую словоформу в испелл, но сразу получил лишние словоформы для других слов. После чего стал отказываться от affix-файла в том виде, в каком он используется в испелл, преобразуя его в более удобоваримый формат.
насчет лени - есть масса пословиц всяких народных, думаю, нет нужды их напоминать ;). но времени это заняло немного. в аффикс-файл вообще новые правила добавлять надо аккуратно - тогда всё будет нормально. если почитать readme.rus http://fisher5.port5.com/readme.rus, то там я написал, что при объединении с реальным аффикс-файлом самый простой способ - все флаги переименовать в новые, а не объединять. эта тема занятна, т.к. местами мои флаги дублируют оригиналы, но я тут особенно большой проблемы не вижу.
 
Сверху