Wicked
так... скачал morphy-0.3.1-win32.zip и morphy-source-ru_RU.zip, распаковал, запустил
code:
morphy_builder.exe --xml ru_RU.xml --out-dir 1 --out-encoding utf-8
получил на выходе файлы common_aut.ru_ru.bin, morph_data.ru_ru.bin, options.ru_ru.ini, predict_aut.ru_ru.bin [1], которые совпадают по размерам с файлами из morphy-0.3.x-ru_RU-withjo-utf-8.zip
Не, надо сделать так:
1) Распаковать morphy-0.3.1-win32.zip куда-нибудь.
2) Установить переменные окружения
-- PHPRC - путь к директории php
-- MORPHY_DIR - путь к директории куда распаковали morphy-0.3.1-win32.zip из п1.
3) распаковать архив с бибилотекой в какой-нибудь каталог (пусть будет c:\morphy).
4) запустить c:\morphy\bin\build_dict.bat XML_FILE OUT_DIR ENCODING
просто morphy_builder.exe обвязку для php не генерит.
2) я хочу добавить новое слово в словарь. Достаточно ли прописать нужную лемму с flexia_id и ancode_id в xml и перегенерить? Как легче всего правильно узнать эти айдишники? На ум приходит только поиск аналогичного слова.
по-хорошему надо сделать приложение для обновления словаря, но сейчас его нет. Можно использовать MorphWizard аотовский и перегонять словарь в xml файл (с помощью bin\mrd2xml.bat). Это будет проще всего, имхо. Кстати, для нормальной работы mrd2xml потребуется установить переменную окружения RML. Она должна содержать путь до каталога куда распаковали аотовские словари (к примеру, файл rgramtab.tab должен быть доступен через %RML%\Dicts\Morph\rgramtab.tab). На неделе попробую прирутить поддержку пользовательских словарей, чтобы с MorphWizard не заморачиваться.
как делаются nojo-словари? можно ли сделать словарь, который будет одновременно содержать jo- и nojo-версии слов, которые изначально содержали букву ё?
делаются очень просто. file_put_contents('file.xml', str_replace('Ё', 'Е', file_get_contents('file.xml')))
. Сделать смешанный словарь можно, но словарик разжиреет немного. Если тебе надо я могу сделать, это несложно.
4) принимаешь ли ты патчи? если дойдут руки пополнить словарь, в каком виде их тебе присылать?
Конечно, в любом виде. Если будешь делать через MorphWizard присылай .mrd файл и .log желательно.
есть ли готовый скрипт, чтобы из mysql получить xml? при добавлении новых слов не хотелось бы ковыряться в xml-ке
Сейчас нет, надо будет сделать, кстати.
-~{}~ 16.06.10 03:03:
http://ru.wiktionary.org/wiki/пылесосить
http://ru.wiktionary.org/wiki/победить
не очень авторитетный источник, но все же
а фиг его знает, яб не стал использовать "пылесошу", на всякий случай
.
ЗЫ: что если сделать словарь на основе парсинга wiktionary?
имхо, там мало слов разобранных + неведомая мне лицензия GFDL.