Понять, что в тексте есть имя персоны.

N9

Новичок
Добрый день,

Есть проблема, решение которой на данный момент я не вижу.
Есть текст новости, в котором среди прочего встречаются имена каких-то персон. Персоны эти имеют самые разные имена - сербские, китайские, американские и т.д. Очевидно, что имена могут стоять в разных падежах (есть проблема с приведением таких имен в именительный падеж - но это уже вопрос для следующей темы).

Самое простое - взять из текста по маске Имя Фамилия все совпадения. В этом случае кроме имен получим всякую фигню вроде (прошу прощения за выкопировки на сербском, проект на этом языке):

Crnogorski Dani
Univerzitetu Aarhus
Grada Kotora
Iz Kotora

То есть, это все, что для нас является мусором. Это не имена.

То есть я в тупике. Делать базу имен или стоп-слов, нахождение которых в отобранном по маске словосочетании говорит нам, что это мусор, нереально - имена всякие разные, мусора много.

Дайте какое-нибудь направление, куда дальше думать. Может быть по направлению какого-нибудь лингвистическо-морфологического анализа.
 

Dovg

Продвинутый новичок
А есть решение?

Например, Конец Света - имя это или нет, зависит исключительно от контекста. Так же как и Рой Медведев.
 

WMix

герр M:)ller
Партнер клуба
Родители в Таиланде, у которых родились шестеро детей, назвали новорожденных именами любимых автомобильных брендов - Форчун (Toyota Fortuner), Ауди, Порше, Мини, Фольксваген и Фиат, сообщает в пятницу газета Bangkok Post.
 
Сверху