подскажите алгоритм определения кодировки - русско язычной

texrdcom · 12 Авг 2005

подскажите алгоритм определения кодировки - русско язычной

Подскажите алгоритм определения кодировки - русско язычной.

То что нашел на форуме не очень устраивает,
функция (tony...) не срабатывает на словах с заглавных букв,
для примера ПРОБА ... - это не критика а так замечание.

По инету нарыл еще два
1) Подсчет определенных букв в тексте(практически не применим для текста длиной в одно слово)
2) Подсчет возможных и не возможных сочетаний символов в русском языке . - более приемлемый - Но возможно кто то знает еще какой-то алгоритм - подскажите.

А надо это добро для определения кодировок электронных писем, так как, выборочно проанализировав несколько тысяч писем в the-bat на локале натолкнулся на несколько в которых указана кодировка в оглавлении, но она не соответствует действительности

Popoff · 13 Авг 2005

Подсчет возможных и не возможных сочетаний символов в русском языке . - более приемлемый

А чем этот не устраивает? На очень коротких поисковых фразах срабатывает практически на 100%. По крайней мере за последние пол года не могу припомнить, что бы какая-то фраза неправильно распозналась.

Для теоретических вопросов > подскажите алгоритм определения кодировки - русско язычной

Ты предлагаешь обсудить теоретические основы технологий автоматизированного определения кодировок текста на русском языке и предложить новый, еще не существующий алгоритм? Или тебя все же конкретная реализация одного из существующих алгоритмов интересует?

-~{}~ 13.08.05 15:27:

Я знаю еще один алгоритм - проверять орфографию. Чем больше неправильных слов в тексте, тем меньше вероятность того, что кодировка правильная

Точность распознавания - 99.99999% на входном тексте любой длины

Исключение - слова, которые будут правильными в любой кодировке.

tashkentchi · 13 Авг 2005

Этот последний алгоритм не распознает кодировку текста "ашипка"

Popoff · 13 Авг 2005

Автор вопроса написал:

алгоритм определения кодировки - русско язычной

Вы же предлагаете распознавание кодировки текста не-русского языка. Если необходимо распознавание русского сленга, то нужно просто подключить соответствующий словарь.

tashkentchi · 13 Авг 2005

Я имел в виду русское слово, написанное с ошибкой: "ошипка" или "ашибка"... Никакой иностранный словарь здесь не поможет.

-~{}~ 13.08.05 19:05:

По буквам кодировка распознается, по словам - нет. Отсюда вывод...

Popoff · 13 Авг 2005

Нужно использовать комбинацию

Проверять последовательности, а так же учитывать правильность написания слов. Если в какой-то кодировке много правильных слов, то вероятнее всего именно эта кодировка - правильная. Если слово написано с ошибкой, то оно будет определяться последовательностями символов.

Впрочем, проверка орфографии слов не требуется. Если от точности распознавания не зависит жизнь людей, то просто последовательностей символов вполне достаточно - проверено на опыте.

tashkentchi · 13 Авг 2005

Согласен

texrdcom · 14 Авг 2005

Так иногда и хочеться сказать раз вы такие умные чего вы строем не ходите ?
Шутка!
Про алгоритмы сочетания букв - символов я написал в самом вопросе!
Интерестно узнать возможно есть какието более продвинутые методы!

tashkentchi · 14 Авг 2005

Тебе дали продвинутую идею. Реализовывай:

Нужно использовать комбинацию Проверять последовательности, а так же учитывать правильность написания слов. Если в какой-то кодировке много правильных слов, то вероятнее всего именно эта кодировка - правильная. Если слово написано с ошибкой, то оно будет определяться последовательностями символов.

подскажите алгоритм определения кодировки - русско язычной

texrdcom

Новичок

Popoff

popoff.donetsk.ua

tashkentchi

Новичок

Popoff

popoff.donetsk.ua

tashkentchi

Новичок

Popoff

popoff.donetsk.ua

tashkentchi

Новичок

texrdcom

Новичок

tashkentchi

Новичок