zaartix
Новичок
практически лингвистическая задача
Привет, народ.
В общем имеем:
1. входной текст от юзера (возможен как с html, так и без)
2. базу по существительным (все словоформы каждого существительного)
Нужно:
определить наличие каждого слова в базе, если есть, то заменить это слово на спец. символы (ну к примеру на {id найденной записи})
Вопросы:
1. нету-ли способов алгоритмически определить существительное это или другая часть речи?
2. для поиска по базе можно только кучу запросов посылать? по каждому из слов? или есть что-то более быстрое?
поясню для чего это надо:
хочу сделать генератор текста на основе заданного.
база по существительным имеет морфологические характеристики каждого из слов.
после нахождения существиетльных в базе и заменой их на спец. символы этот текст сохраняется, и в дальнейшем будет происходить генерация так:
по спец. символу определяю запись в базе существительных, далее нахожу исходную форму этого существительного (такие данные в базе тоже есть), далее ищу синонимы для этой исходной формы (база синонимов так-же в наличии), после этого привожу найденый синоним к нужной морфологической характеристике (тоже есть данные для этого).
ну вообще в дальнейшем это не только существительные будут, просто хочу сначала с ними разобраться. Дальше еще будут прилагательные и глаголы (базы есть)
может у кого-нибудь есть мысли по более оптимальному алгоритму работы?
Привет, народ.
В общем имеем:
1. входной текст от юзера (возможен как с html, так и без)
2. базу по существительным (все словоформы каждого существительного)
Нужно:
определить наличие каждого слова в базе, если есть, то заменить это слово на спец. символы (ну к примеру на {id найденной записи})
Вопросы:
1. нету-ли способов алгоритмически определить существительное это или другая часть речи?
2. для поиска по базе можно только кучу запросов посылать? по каждому из слов? или есть что-то более быстрое?
поясню для чего это надо:
хочу сделать генератор текста на основе заданного.
база по существительным имеет морфологические характеристики каждого из слов.
после нахождения существиетльных в базе и заменой их на спец. символы этот текст сохраняется, и в дальнейшем будет происходить генерация так:
по спец. символу определяю запись в базе существительных, далее нахожу исходную форму этого существительного (такие данные в базе тоже есть), далее ищу синонимы для этой исходной формы (база синонимов так-же в наличии), после этого привожу найденый синоним к нужной морфологической характеристике (тоже есть данные для этого).
ну вообще в дальнейшем это не только существительные будут, просто хочу сначала с ними разобраться. Дальше еще будут прилагательные и глаголы (базы есть)
может у кого-нибудь есть мысли по более оптимальному алгоритму работы?
