N9
Новичок
Добрый день,
Есть проблема, решение которой на данный момент я не вижу.
Есть текст новости, в котором среди прочего встречаются имена каких-то персон. Персоны эти имеют самые разные имена - сербские, китайские, американские и т.д. Очевидно, что имена могут стоять в разных падежах (есть проблема с приведением таких имен в именительный падеж - но это уже вопрос для следующей темы).
Самое простое - взять из текста по маске Имя Фамилия все совпадения. В этом случае кроме имен получим всякую фигню вроде (прошу прощения за выкопировки на сербском, проект на этом языке):
Crnogorski Dani
Univerzitetu Aarhus
Grada Kotora
Iz Kotora
То есть, это все, что для нас является мусором. Это не имена.
То есть я в тупике. Делать базу имен или стоп-слов, нахождение которых в отобранном по маске словосочетании говорит нам, что это мусор, нереально - имена всякие разные, мусора много.
Дайте какое-нибудь направление, куда дальше думать. Может быть по направлению какого-нибудь лингвистическо-морфологического анализа.
Есть проблема, решение которой на данный момент я не вижу.
Есть текст новости, в котором среди прочего встречаются имена каких-то персон. Персоны эти имеют самые разные имена - сербские, китайские, американские и т.д. Очевидно, что имена могут стоять в разных падежах (есть проблема с приведением таких имен в именительный падеж - но это уже вопрос для следующей темы).
Самое простое - взять из текста по маске Имя Фамилия все совпадения. В этом случае кроме имен получим всякую фигню вроде (прошу прощения за выкопировки на сербском, проект на этом языке):
Crnogorski Dani
Univerzitetu Aarhus
Grada Kotora
Iz Kotora
То есть, это все, что для нас является мусором. Это не имена.
То есть я в тупике. Делать базу имен или стоп-слов, нахождение которых в отобранном по маске словосочетании говорит нам, что это мусор, нереально - имена всякие разные, мусора много.
Дайте какое-нибудь направление, куда дальше думать. Может быть по направлению какого-нибудь лингвистическо-морфологического анализа.