fisher
накатила суть
поиск: корректное образование словоформ фамилий - предлагаю потестировать подход
короче, идея родилась достаточно давно, но руки до неё дошли только на праздниках . речь об rus-ispell и ему подобных словарях, которые используются во всеми любимых поисковиках mnogosearch и htdig для морфологии.
проблема в-общем касается крупных проектов (в первую очередь новостных), для которых адекватна проблема поиска всех материалов с упоминанием персон по фамилии. если у вас многосерч или htdig или любой другой ispell-ориентированный движок - вы неминуемо столкнетесь с проблемой образования словоформ фамилий и расширения словаря наиболее часто упоминаемыми фамилиями.
если расширение словаря не есть очень большая проблема, то применение оригинальных правил склонения всяких фамилий именно в той группировке, в которой она есть у Лебедева, на мой скромный взгляд, дает либо неполный набор словоформ, либо вообще конфуз.
мне это не понравилось, и я решил поиграться. результаты можно скачать тут
http://fisher5.port5.com/fam-aff.zip
состоит из слегка переделанного файла правил словообразования, маленькой PHP-библиотеки и скрипта, который прогоняет процедуру образования словоформ на наборе тестовых фамилий. тестовый набор каждый может менять произвольно. версия исключительно иллюстративная, склоняет только из базовой формы (т.е. из именительного падежа), но ничего другого и не требуется, т.к. главное тут тест правил словообразования. эти правила потом каждый сам может добавить к своему движку.
кому проблема интересна - качайте, играйтесь и давайте обсудим.
короче, идея родилась достаточно давно, но руки до неё дошли только на праздниках . речь об rus-ispell и ему подобных словарях, которые используются во всеми любимых поисковиках mnogosearch и htdig для морфологии.
проблема в-общем касается крупных проектов (в первую очередь новостных), для которых адекватна проблема поиска всех материалов с упоминанием персон по фамилии. если у вас многосерч или htdig или любой другой ispell-ориентированный движок - вы неминуемо столкнетесь с проблемой образования словоформ фамилий и расширения словаря наиболее часто упоминаемыми фамилиями.
если расширение словаря не есть очень большая проблема, то применение оригинальных правил склонения всяких фамилий именно в той группировке, в которой она есть у Лебедева, на мой скромный взгляд, дает либо неполный набор словоформ, либо вообще конфуз.
мне это не понравилось, и я решил поиграться. результаты можно скачать тут
http://fisher5.port5.com/fam-aff.zip
состоит из слегка переделанного файла правил словообразования, маленькой PHP-библиотеки и скрипта, который прогоняет процедуру образования словоформ на наборе тестовых фамилий. тестовый набор каждый может менять произвольно. версия исключительно иллюстративная, склоняет только из базовой формы (т.е. из именительного падежа), но ничего другого и не требуется, т.к. главное тут тест правил словообразования. эти правила потом каждый сам может добавить к своему движку.
кому проблема интересна - качайте, играйтесь и давайте обсудим.