Кодовки и использоване iconv

ХакИрФсимагущий · 8 Окт 2010

Кодовки и использоване iconv

Ко мне поступают данные в переменную в разных кодиовках
utf-8
win-1251
мне надо их вывести на экран в кодировке win-1251
Но вот проблема: Если я обрабатываю функцией iconv("UTF-8", "windows-1251", $переменная)
То в одном случае
'/РјР°РЅРёРєСЋСЂ/' до перекодировки
'/маникюр/' после

В другом
'/маникюр/' до перекодировки
'/' после

А вот тут проблема. Как решить эту проблему?

-~{}~ 08.10.10 21:36:

Решил эту проблему вот так предпологаю, что это говнокод, но альтернативы не нашел пока.((( Но уверен есть более рациональное решение я бы сам написал, но понятия не имею как побайтово можно опрделять кодеровки.
function forwin($s){
$s1=$s;
$s=urlencode($s);
$j=strlen($s);
$k=strlen(str_replace(array("%D0","%D1"),array('',''),strtoupper($s)));
if ($k>0){
$m=$j/$k;
if (($m>1.2)&&($m<2.2)){$s1=iconv("UTF-8", "windows-1251", $s1);}
}
return $s1;
}

Вурдалак · 8 Окт 2010

Определить кодировку невозможно.

ХакИрФсимагущий · 8 Окт 2010

Спасибо, первый раз вижу за седня такой прямой ответ))
А вот опредилить сколько бит в строке можно? просто хотелось бы реализовать эту функцию минуя urlencode($s)- мне кажется что она тут лишняя

Вурдалак · 8 Окт 2010

Можно.

ХакИрФсимагущий · 8 Окт 2010

погуглю, но надеялся на функцию))

-~{}~ 08.10.10 23:27:

ну и статью про кодировку ютф8

Вурдалак · 8 Окт 2010

Можно лишь эмпирически предположить, что данная строка в кодировке UTF-8. Например, тут пример regex'а.

Но определить невозможно.

ХакИрФсимагущий · 8 Окт 2010

Интуиция мне подсказывает, что там пример фильтрации от не нужных символов. Впрочем теперь мне извесно, что 1 символ в ютф 8 записывается от 1 до 3 бит.

А вот что значит?:

Но определить невозможно.

Нельзя узнать сколько в строке байт?

Вурдалак · 8 Окт 2010

По ссылке оранжевым по серому написано что делает функция.

1 символ UTF-8 занимает от 1-го до 4-х байт на практике и до 6-ти байт в теории.

ХакИрФсимагущий · 8 Окт 2010

У мня глюки или ссылка поменялась)))) Спс шас почитаю

-~{}~ 09.10.10 20:59:

не помогло( работает только старый вариант.

И всетаки как опрелелить количество байт в строке?
и Как посмотреть строку в виде \x1A\xD3...

-~{}~ 09.10.10 21:45:

хтя ну и фиг с ним полюбому для просмотра строки ввиде \x1A\xD3 понадобится функция по быстродействию примерной urlencode

fixxxer · 9 Окт 2010

Если известно, что строка на русском языке, то кодировка определяется элементарно

открой в hex-редакторе рядом, скажем, текст своего поста в utf-8 и 1251, и сам поймешь.

алсо, [m]count_chars[/m], [m]substr_count[/m].

ХакИрФсимагущий · 9 Окт 2010

ну дык я примерно так и определяю только используя урл енекоден, что скорее всего не очень практично. Но думаю что практичнее в hex все это делать.

-~{}~ 09.10.10 23:15:

fixxxer
а эти функции мультибайтово шитают байты или символы они шитают

fixxxer · 9 Окт 2010

Байты (но в случае с включенным mbstring.overload вторая может быть и алиасом mb_substr_count - тогда orig_substr_count).

ХакИрФсимагущий · 9 Окт 2010

А есть какиенибуть не самопальные функции для перекодирывания строку в hex?

Вурдалак · 9 Окт 2010

bin2hex

Кодовки и использоване iconv

ХакИрФсимагущий

[засикречино]

Вурдалак

Продвинутый новичок

ХакИрФсимагущий

[засикречино]

Вурдалак

Продвинутый новичок

ХакИрФсимагущий

[засикречино]

Вурдалак

Продвинутый новичок

ХакИрФсимагущий

[засикречино]

Вурдалак

Продвинутый новичок

ХакИрФсимагущий

[засикречино]

fixxxer

К.О.

ХакИрФсимагущий

[засикречино]

fixxxer

К.О.

ХакИрФсимагущий

[засикречино]

Вурдалак

Продвинутый новичок