JIEXA
Новичок
Непонятная проблема с кодировкой.
Поставленная перед мной задача была парсить Java Script`ский API сайта RuTube и добавлять с него новые ролики в БД.
Страница с которой нужно "выдирать" ролики http://rutube.ru/cgi-bin/jsapi.cgi?rt_sort_by=date&rt_term=today
Судя по заголовкам
видно, что они отдают в кодировке KOI8-R
Страницу я запрашивал функцией file_get_contents, и потом сразу перекодировал всю страницу в win-1251
$text = iconv("KOI8-R", "windows-1251", $data);
Всё нормально вставлялось в БД.. установил запуск скрипта кроном каждые 30 мин, и сидел - наблюдал как пополняеться БД роликов. Но тут началось временами проскакивать ролики с названиями типа "????? ?????)))", "??? ??????". Я подумал, что это просто в БД рутуба эти ролики лежат в поколеченном состоянии.. Но посмотрев на сайте рутуба, увидел что с данными роликами все в порядке и у них нормальное название. Проанализировав все более конкретно, я пришел к тому, что при загрузке страницы все ролики либо добавляються в нормальной кодировке, либо знаками ????. Запрашавая страницу "руками" у меня не получилось получить ответ сервера в другой кодировке.. всегда отдаеться в KOI8-R и заголовки роликов в порядке. И тут я уже незнаю, почему такое происходит, решил спросить у общественности. В чем может быть проблема?
Поставленная перед мной задача была парсить Java Script`ский API сайта RuTube и добавлять с него новые ролики в БД.
Страница с которой нужно "выдирать" ролики http://rutube.ru/cgi-bin/jsapi.cgi?rt_sort_by=date&rt_term=today
Судя по заголовкам
Код:
Date Wed, 19 Sep 2007 00:08:52 GMT
Server Apache/2.0.59
Set-Cookie xsid=05b65f0e921178896e8c0a1a775faa0b; domain=.rutube.ru; path=/; expires=Sat, 16-Sep-2017 00:08:53 GMT
Pragma no-cache
Cache-Control no-cache="set-cookie", no-cache
Expires 30 Oct 1998 14:19:41 GMT
Content-Type text/html; charset=KOI8-R
Transfer-Encoding chunked
Страницу я запрашивал функцией file_get_contents, и потом сразу перекодировал всю страницу в win-1251
$text = iconv("KOI8-R", "windows-1251", $data);
Всё нормально вставлялось в БД.. установил запуск скрипта кроном каждые 30 мин, и сидел - наблюдал как пополняеться БД роликов. Но тут началось временами проскакивать ролики с названиями типа "????? ?????)))", "??? ??????". Я подумал, что это просто в БД рутуба эти ролики лежат в поколеченном состоянии.. Но посмотрев на сайте рутуба, увидел что с данными роликами все в порядке и у них нормальное название. Проанализировав все более конкретно, я пришел к тому, что при загрузке страницы все ролики либо добавляються в нормальной кодировке, либо знаками ????. Запрашавая страницу "руками" у меня не получилось получить ответ сервера в другой кодировке.. всегда отдаеться в KOI8-R и заголовки роликов в порядке. И тут я уже незнаю, почему такое происходит, решил спросить у общественности. В чем может быть проблема?