подскажите алгоритм определения кодировки - русско язычной

texrdcom

Новичок
подскажите алгоритм определения кодировки - русско язычной

Подскажите алгоритм определения кодировки - русско язычной.

То что нашел на форуме не очень устраивает,
функция (tony...) не срабатывает на словах с заглавных букв,
для примера ПРОБА ... - это не критика а так замечание.

По инету нарыл еще два
1) Подсчет определенных букв в тексте(практически не применим для текста длиной в одно слово)
2) Подсчет возможных и не возможных сочетаний символов в русском языке . - более приемлемый - Но возможно кто то знает еще какой-то алгоритм - подскажите.

А надо это добро для определения кодировок электронных писем, так как, выборочно проанализировав несколько тысяч писем в the-bat на локале натолкнулся на несколько в которых указана кодировка в оглавлении, но она не соответствует действительности :)
 

Popoff

popoff.donetsk.ua
Подсчет возможных и не возможных сочетаний символов в русском языке . - более приемлемый
А чем этот не устраивает? На очень коротких поисковых фразах срабатывает практически на 100%. По крайней мере за последние пол года не могу припомнить, что бы какая-то фраза неправильно распозналась.

Для теоретических вопросов > подскажите алгоритм определения кодировки - русско язычной
Ты предлагаешь обсудить теоретические основы технологий автоматизированного определения кодировок текста на русском языке и предложить новый, еще не существующий алгоритм? Или тебя все же конкретная реализация одного из существующих алгоритмов интересует? :)

-~{}~ 13.08.05 15:27:

Я знаю еще один алгоритм - проверять орфографию. Чем больше неправильных слов в тексте, тем меньше вероятность того, что кодировка правильная :) Точность распознавания - 99.99999% на входном тексте любой длины :) Исключение - слова, которые будут правильными в любой кодировке.
 

tashkentchi

Новичок
Этот последний алгоритм не распознает кодировку текста "ашипка"
 

Popoff

popoff.donetsk.ua
Автор вопроса написал:
алгоритм определения кодировки - русско язычной
Вы же предлагаете распознавание кодировки текста не-русского языка. Если необходимо распознавание русского сленга, то нужно просто подключить соответствующий словарь.
 

tashkentchi

Новичок
Я имел в виду русское слово, написанное с ошибкой: "ошипка" или "ашибка"... Никакой иностранный словарь здесь не поможет.

-~{}~ 13.08.05 19:05:

По буквам кодировка распознается, по словам - нет. Отсюда вывод...
 

Popoff

popoff.donetsk.ua
Нужно использовать комбинацию :) Проверять последовательности, а так же учитывать правильность написания слов. Если в какой-то кодировке много правильных слов, то вероятнее всего именно эта кодировка - правильная. Если слово написано с ошибкой, то оно будет определяться последовательностями символов.

Впрочем, проверка орфографии слов не требуется. Если от точности распознавания не зависит жизнь людей, то просто последовательностей символов вполне достаточно - проверено на опыте.
 

texrdcom

Новичок
Так иногда и хочеться сказать раз вы такие умные чего вы строем не ходите ?
Шутка!
Про алгоритмы сочетания букв - символов я написал в самом вопросе!
Интерестно узнать возможно есть какието более продвинутые методы!
 

tashkentchi

Новичок
Тебе дали продвинутую идею. Реализовывай:
Нужно использовать комбинацию Проверять последовательности, а так же учитывать правильность написания слов. Если в какой-то кодировке много правильных слов, то вероятнее всего именно эта кодировка - правильная. Если слово написано с ошибкой, то оно будет определяться последовательностями символов.
 
Сверху