Анализ кодировки текста и перекодировка.

tristram

Guest
Анализ кодировки текста и перекодировка.

Хочу написать декодер который анализирует переданный ему текст и переводит в win1251 из любой кодировки. Написание перекодировщика которому нужно указать кодировку вручную заняло минуту, а вот как сделать авто-определение я не знаю. Выскажите идеи плиз :) Спасибо
 

Фанат

oncle terrible
Команда форума
выскажем с удовольствием.
предыдущий клиент с этой идеей выступал меньше недели назад
 

tristram

Guest
давно не спал. мне можно так говорить :) подскажи плиз ссылку на тему. мне бы только идею маленькую а дальше я сам. у меня идеи есть но они не очень правильные мне кажется. не считайте меня извращенцем: перебор всех доступных кодировок и частотный анализ текста, и исходня из процента похожести результата анализа входных данных в очередной кодировке и эталона, можно сделать вывод та ли эта кодировка.
но мне кажется что этот метод не состоятелен поскольку для маленьких текстов он не актуален.
 

SiMM

Новичок
Popoff, рано выложили. Он же просил идею маленькую - а Рощинских статей для этого достаточно ;)

> не считайте меня извращенцем: ... частотный анализ текста, и исходня из процента похожести результата анализа входных данных в очередной кодировке и эталона, можно сделать вывод та ли эта кодировка.
Вообще-то нечто подобное там и используется.
 

tristram

Guest
Popoff
спасибо. сейчас буду смотреть.
SiMM
злой ты :)
 

svdesign

Guest
Функции mb_convert_encoding параметр from_encoding не обязательно указывать, она может автоматически опеределить нужную, или указать массив всех возможных.

mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding])
 

kvf77

Red Devil
Еще в догонку специально составленый раздел FAQ:
http://phpclub.ru/faq/wakka.php?wakka=encodings&v=x3z

там есть примеры, если память не изменяет тривиальной реализации такого алгоритма
 

varan

Б̈́̈̽ͮͣ̈Л̩̲̮̻̤̹͓ДͦЖ̯̙̭̥̑͆А͇̠̱͓͇̾ͨД͙͈̰̳͈͛ͅ
Кто-нибудь знает, есть ли где-нибудь готовые скрипты по определению любой кодировки, а не только русской? :)

Писать такое чудовище запарно, а скоро придется...
 

tristram

Guest
это временно. проблемы на хостинге. втечение дня заработает.

-~{}~ 17.09.05 15:11:

varan
уже работает
 

tIT

Новичок
tristram:
cp866 он воспринял, как utf8 =))
Мдя... против Доса только Far =)
 
Сверху