UTF -> WIN нюансы...

-=SG=-

Guest
UTF -> WIN нюансы...

Доброе утро уважаемые... для конвертации сабжа юзаю код который нашел тут на форуме:

PHP:
$is_utf= !preg_replace('#[\x0-\x7F]|[\xD0][\x81\x90-\xBF]|[\xD1][\x91\x80-\x8F]#s','',$fcontents); 
if ($is_utf!=1)
{

  static $table = array("\xD0\x81" => "\xA8", // Ё 
                        "\xD1\x91" => "\xB8", // ё 
                       ); 
  $fcontents = preg_replace('#([\xD0-\xD1])([\x80-\xBF])#se', 
                      'isset($table["$0"]) ? $table["$0"] : 
                       chr(ord("$2")+("$1" == "\xD0" ? 0x30 : 0x70))',$fcontents); 
}
В переменную $fcontents вносится содержимое страницы.
Все работает отлично ... но вот выяснилось что некоторые страницы в uft кодировке этот код не обрабатывает.

Пример удачной конвертации: подставляем содержимое урла http://www.3dnews.ru/software-news/ (в шапке которой указано "charset=UTF-8")

Пример не удачной конвертации: подставляет содержимое урла http://www.steb.ru/2005/03/28/13.htm (в шапке "charset=utf-8")

Знающих или автора кода, прошу написать что не так и где подправить :) заранее большое спасибо!

ЗЫ. Если не сложно можно пжлста код определения кодировки (mb_detect_encoding - все время показывает utf :( )
 

Demiurg

Guest
про "не обрабатывает" поподробнее.
и зачем такая конвертация нужна ? контент воруем ?
 

SiMM

Новичок
> что не так
$is_utf == 1
И вообще, это ж надо было так идею извратить. Это не is_utf, это is_ruUTF8
 

-=SG=-

Guest
to SiMM
я и имел ввиду UTF8 ... пасиб ща попробую

to slach
устраивает, но как определить что это именно utf8

to Demiurg
не обрабатывает, значит то что не заходит на ветку if ($is_utf!=1)
>контент воруем
скорее заказываю для собственного просмотра
 

SiMM

Новичок
Дело не в 8 или 7, дело в том, что это is_ru
Функцию я писал для того, чтобы определить "похожесть" символов на русско-английский текст, закодированный UTF-8.
Автоопределение обсуждалось не раз, но оно тебе нафиг не сдалось, поскольку кодировка явно указана в хидерах. И вообще, воровать контент не хорошо.
 

-=SG=-

Guest
да что вы все заладили воровать, воровать ... про web2mail никто не слышал? или это тоже плохо?

за разъяснение насчет is_ru спасибо...
 
Сверху