проблемы с кодировкой

mymans

Новичок
проблемы с кодировкой

Привет!

пробую открыть страницу и загрузить ее в DOMDocument

PHP:
$dom = new DOMDocument('1.0', 'windows-1251');
$dom->loadHTMLFile('http://сайт.ру');
$title = $dom->getElementsByTagName("p");
print $dom->saveHTML();
print $title->item(0)->textContent;
в ответ получаю кракозябры

я все перепробовал

PHP:
$dom = new DOMDocument('1.0', 'windows-1251');
$cont=file_get_contents("http://сайт.ру");
$dom->loadHTML("UTF-8", "cp1251", $cont);
$title = $dom->getElementsByTagName("p");
print $dom->saveHTML();
print $title->item(0)->textContent;
может кто подскажет
 

laflaf

Новичок
в HTML должен быть прописан charset, чтобы DOMDocument понял, в какой кодировке текст.

saveHTML() возвращает в той кодировке, которая прописана в DOMDocument вторым аргументом. Не знаю, понимает ли он windows-1251 (не проверял), если не понимает, то надо возвращать в UTF-8, а потом результат конвертировать через iconv()
 
Сверху