evilmolen
Новичок
Приветствую, господа.
Решил попрактиковаться в парсинге сайтов, и выбрал тему аудита, т.е. пишу свой маленький анализатор(аудитор).
Всё работало чудесно, до того как я наткнулся на один гадкий сайтец.
В общем, при чтении тайтла и выводе появились кракозябры, как на скриншоте, дело привычное но вот первый символ меня сразу смутил, после преобразования строки получил на выводе текст тайтла, но без первого символа, т.е. он просто пропал.
Код конверта кодировки:
Скриншот вывода:
Затем вбил текст тайтла в декодеры Лебедева и чарсет.ру, декодер Лебедева выплюнул текст так же, без первого символа, вместо него квадратик, а чарсет.ру выплюнул это:
URL сайта на скриншоте, если кто-то захочет сам проверить.
Решил попрактиковаться в парсинге сайтов, и выбрал тему аудита, т.е. пишу свой маленький анализатор(аудитор).
Всё работало чудесно, до того как я наткнулся на один гадкий сайтец.
В общем, при чтении тайтла и выводе появились кракозябры, как на скриншоте, дело привычное но вот первый символ меня сразу смутил, после преобразования строки получил на выводе текст тайтла, но без первого символа, т.е. он просто пропал.
Код конверта кодировки:
PHP:
$title= mb_convert_encoding($title,mb_detect_encoding($title , "CP1252"), 'UTF8');
$title= mb_convert_encoding($title,'UTF8', "CP1251");

Затем вбил текст тайтла в декодеры Лебедева и чарсет.ру, декодер Лебедева выплюнул текст так же, без первого символа, вместо него квадратик, а чарсет.ру выплюнул это:
Собственно, подскажите что делать, в чём причина этой проблемы и как её решить?�нтернет магазин рыболовных товаров - доступные цены, большой ассортимент снастей
URL сайта на скриншоте, если кто-то захочет сам проверить.