Алгоритм поиска мусорных строк

.scu · 14 Авг 2012

Возможно кто-то решал подобную задачу и сможет подсказать алгоритмическое решение:
Есть неочищенный массив строк, нам нужно очистить его от мусора. Мусор - некорректно введенные строки (с неверной раскладкой), пример:
eirb lkz yfdtcys[ pfvrjd
ушки lkz yfdtcys[ pfvrjd

Пока была идея - обращаться к Яндексу и смотреть кол-во найденных результатов подобной строки в документах, а также изменился ли запрос, но этот вариант очень плох из-за зависимости от яндекса и на больших объемах неприемлем (captcha).

Поэтому ищется так скажем логическое решение без использования внешних сервисов.

Спасибо за помощь!

Вурдалак · 14 Авг 2012

Можно применять таблицу частот появления букв (или сочетания двух букв) для русского и английского языков (составить/взять).

.scu · 14 Авг 2012

Хорошая идея, а есть где-то готовые таблицы (словари) частот?

Вурдалак · 14 Авг 2012

Google подскажет.

Алгоритм поиска мусорных строк

.scu

Новичок

Вурдалак

Продвинутый новичок

.scu

Новичок

Вурдалак

Продвинутый новичок