0) Тебе нужен словарь русского языка (в электроном виде

)
1) найди допустимые сочетания символов можно 2 букв можно 3 букв в словах.
2) сохрани их в виде сочетаний байтов для эталонной кодировки - например windows-1251
3) когда анализируеш -текст - строку сначала по очереди проганяеш по различным кодировкам потом разбиваеш на тежи символы - байты и сравниваеш
4) но это сработает в 80% - на вскидку,
5) для более точной работы еще надо после пункта 4 по томуже словарю найти слова с полученной перекодированной строки.
p/s
Так можно определить текст в какой он кодировки плюс программу можно обучать - если при неверном распознаном слове - тексте разбить его на слова и записать их в тотже словарь
У меня получился базовый словать в 294000 слов естественно храниться в базе данных так как при таком обьеме поиск слов по файлу происходит долго а через базу терпимо, хотя я не довадил до конца данный алгоритм потому что то готовое показать не могу.
Будут вопросы спрашивай.
p/s _2
Соврал не много быстрея и универсальней будет сделать файл
словаря и искать исомые слова прямо в нем только что про тестил на много быстея получаеться обычным preg_match()