Dimonets
Guest
Морфологический анализатор
Есть вопрос.
Кое-как удалось сделать проверку на английский язык, вводимый в текстарию на форме. Также я ограничил количество минимальных символов до 50. Чтобы юзверы не ленились рассказывать о себе.
Но! Появилась проблема - многие юзеры из-за лени заполнять эту форму вводят туда чтото типа: "abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc" чтобы преодолеть проверку.
Теперь возник вопрос сделать что-то типа морфологического анализатора, который будет проверять - является ли введенный текст похожим на реальный текст английского языка.
Появилась идея проводить поиск предлогов, артиклей и специальныз часто встречаемых глаголов типа: "a the is are do does did have has had will 'll 'm 'd was were" а также инговых окончаний "ing".
Проблема в том что я незнаю как лучше сделать подобную проверку, может кто подскажет какое-то регулярное выражение или алгоритм? Проблема усугубляется еще и тем что текст может быть всего-лишь длинной 50 символов, и там могут встречаться искомые предлоги и частицы не часто.
Подскажите плиз.
Спасибо.
Есть вопрос.
Кое-как удалось сделать проверку на английский язык, вводимый в текстарию на форме. Также я ограничил количество минимальных символов до 50. Чтобы юзверы не ленились рассказывать о себе.
Но! Появилась проблема - многие юзеры из-за лени заполнять эту форму вводят туда чтото типа: "abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc abc" чтобы преодолеть проверку.
Теперь возник вопрос сделать что-то типа морфологического анализатора, который будет проверять - является ли введенный текст похожим на реальный текст английского языка.
Появилась идея проводить поиск предлогов, артиклей и специальныз часто встречаемых глаголов типа: "a the is are do does did have has had will 'll 'm 'd was were" а также инговых окончаний "ing".
Проблема в том что я незнаю как лучше сделать подобную проверку, может кто подскажет какое-то регулярное выражение или алгоритм? Проблема усугубляется еще и тем что текст может быть всего-лишь длинной 50 символов, и там могут встречаться искомые предлоги и частицы не часто.
Подскажите плиз.
Спасибо.