Про кодировку

Николай

PHP - CooL
Про кодировку

Короче, у меня скрипт открывает множество сайтов и складирует их на винте, но попадается достаточно много сайтов(около 30 %) в не понятной кодировке.
Приверно вот такие комбинации: ОБЮБМП, УППВЭЕОЙ.
Как наипростейшим образом скрипту узнать стоит ли переводить кодировку(convert_cyr_string()) или нет?
Спасибо!
 

SiMM

Новичок
Анализировать наличие указания кодировки в HTML-файле, в случае отсутствия такового - делать выводы на основании пришедших хидеров. В случае отсутствия и этого - спросить у tony2001 - кажется, у него был пример, пытающийся определить кодировку автоматически.
 

lucas

Guest
Приверно вот такие комбинации: ОБЮБМП, УППВЭЕОЙ.
Имя этим "комбинациям" -- кодировка КОИ8-Р.

Как наипростейшим образом скрипту узнать стоит ли переводить кодировку(convert_cyr_string()) или нет?
[m]mb_detect_encoding[/m]/http://tony2001.phpclub.net/misc/detect_charset/detect.phps
 

advocat

developer
mb_detect_encoding не вернет тебе конкретной кодировки,
при проверке 2х текстов, одного в коях, вротого в 1251
вернет ASCII :)

-~{}~ 03.10.04 14:51:

есть вариант который многие использует это сравнение

PHP:
$encoding = "utf-8";
if (@iconv('koi8-r','koi8-r', $string) == $string) {
    $encoding = "koi8-r";
}
// ... 
elseif (@iconv('cp1251','cp1251', $string) == $string) {
    $encoding = "cp1251";
}
//...
$string = @iconv($encoding, 'cp1251', $string);
 

Николай

PHP - CooL
Большое спасибо!

Не думал что есть такой простой вариант и тем более готовый :)
 
Сверху