Как правильно работать с неизвестной кодировкой?

evilmolen

Новичок
Приветствую, господа.
Решил попрактиковаться в парсинге сайтов, и выбрал тему аудита, т.е. пишу свой маленький анализатор(аудитор).
Всё работало чудесно, до того как я наткнулся на один гадкий сайтец.
В общем, при чтении тайтла и выводе появились кракозябры, как на скриншоте, дело привычное но вот первый символ меня сразу смутил, после преобразования строки получил на выводе текст тайтла, но без первого символа, т.е. он просто пропал.
Код конверта кодировки:
PHP:
$title= mb_convert_encoding($title,mb_detect_encoding($title , "CP1252"), 'UTF8');
$title= mb_convert_encoding($title,'UTF8', "CP1251");
Скриншот вывода:

Затем вбил текст тайтла в декодеры Лебедева и чарсет.ру, декодер Лебедева выплюнул текст так же, без первого символа, вместо него квадратик, а чарсет.ру выплюнул это:
�нтернет магазин рыболовных товаров - доступные цены, большой ассортимент снастей
Собственно, подскажите что делать, в чём причина этой проблемы и как её решить?
URL сайта на скриншоте, если кто-то захочет сам проверить.
 

AnrDaemon

Продвинутый новичок
mb_detect_encoding нормально не работает.
И вообще, зачем так извращаться?
Код:
$ curl -siI http://www.fireguns.ru/
HTTP/1.1 200 OK
Server: nginx/0.7.67
Date: Tue, 30 Sep 2014 15:51:58 GMT
Content-Type: text/html; charset=windows-1251
Connection: keep-alive
X-Powered-By: PHP/5.3.3-7+squeeze15
Last-Modified: Tue, 30 Sep 2014 15:51:58 GMT
Set-Cookie: PHPSESSID=dd92a601e2378feeed39fe585defebf9; path=/
Expires: Thu, 19 Nov 1981 08:52:00 GMT
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Vary: Accept-Encoding
 

AnrDaemon

Продвинутый новичок
Не понимаете чего? Только, что кодировка документа указана в заголовке?
Может, вы рано взялись парсить чужие сайты? Надо сначала немного стандартов покурить?
 

evilmolen

Новичок
Не понимаете чего? Только, что кодировка документа указана в заголовке?
Может, вы рано взялись парсить чужие сайты? Надо сначала немного стандартов покурить?
Раз в сто лет возникают вопросы по пыху, с которыми я не могу разобраться сам и о которых я пишу на форуме, и каждый раз вместо ответа получаю только выпендрёж.

У меня нету проблемы с определением кодировки и преобразования всего текста КРОМЕ первого символа. Что мне дадут ваши заголовки? Я и так знаю, что там cp1251 (кстати, mb_detect_encoding() адекватно определяет кодировку), что толку мне с этого? простой iconv() не даёт результатов.
И на кой черт мне курить стандарты, если ситуация не стандартная? Добрая часть аудиторов, через которые я прогонял этот сайт тоже сьедала первый символ, либо выводила весь тайтл кракозябрами.

В любом случае, помогли более адекватные люди на stackoverflow, так что тему можно удалить.
 

С.

Продвинутый новичок
На сайте нормальный заголовок. Есть подозрение, что ты его читаешь или выдаешь не так, как надо.
 
Сверху