Алгоритм поиска мусорных строк

.scu

Новичок
Возможно кто-то решал подобную задачу и сможет подсказать алгоритмическое решение:
Есть неочищенный массив строк, нам нужно очистить его от мусора. Мусор - некорректно введенные строки (с неверной раскладкой), пример:
eirb lkz yfdtcys[ pfvrjd
ушки lkz yfdtcys[ pfvrjd

Пока была идея - обращаться к Яндексу и смотреть кол-во найденных результатов подобной строки в документах, а также изменился ли запрос, но этот вариант очень плох из-за зависимости от яндекса и на больших объемах неприемлем (captcha).

Поэтому ищется так скажем логическое решение без использования внешних сервисов.

Спасибо за помощь!
 

Вурдалак

Продвинутый новичок
Можно применять таблицу частот появления букв (или сочетания двух букв) для русского и английского языков (составить/взять).
 

.scu

Новичок
Хорошая идея, а есть где-то готовые таблицы (словари) частот?
 
Сверху