Проблема. Не парсится HTML страничка.

Статус
В этой теме нельзя размещать новые ответы.

kif0rt

Новичок
Проблема. Не парсится HTML страничка.

Вообщем надо мне распарсить html страничку и выдрать оттуда кое-какие данные.

Пытался делать так:

PHP:
$html2xml = new DOMDocument();
$html2xml->loadHTML($Result);
$html2xml->formatOutput = true;
$html2xml->saveHTMLfile('out.xml');
Парсим:

PHP:
	class MyClass
	{
		private  $xmlParser = null;
		
		public function parseHtmlToArray($pageHTML)
		{
			$this->xmlParser = xml_parser_create('');
			xml_parser_set_option($this->xmlParser, XML_OPTION_TARGET_ENCODING, 'UTF-8');
			xml_set_object($this->xmlParser, $this);
			xml_set_element_handler($this->xmlParser, 'startElementHandler', 'endElementHandler');
			xml_set_character_data_handler($this->xmlParser, 'dataHandler');
			xml_parser_set_option($this->xmlParser, XML_OPTION_CASE_FOLDING, false);
			xml_parse($this->xmlParser, file_get_contents($pageHTML));
			xml_parser_free($this->xmlParser);

		}
		
		private function startElementHandler($xmlParser, $tagName, $attributes)
		{
			$tagName = strtolower($tagName);
			$attributes = array_change_key_case($attributes, CASE_LOWER);
			
			//echo $tagName;
			echo 'OK';
		}

		private function endElementHandler($xmlParser, $tagName)
		{
			
		
		}
		
		private function dataHandler($xmlParser, $data)
		{
			
		}	
		
	}	
	
	$bla = new MyClass();
	$bla->parseHtmlToArray('http://127.0.0.1/work/out.xml');
OK не появился :( file_get_contents файл считывает номрально.
 

kif0rt

Новичок
Апокалипсис

изначально страница - обычный HTML. out.xml - файл после "перегонки" html в xml с помощью DOMDocument.
 

Mr_Max

Первый класс. Зимние каникулы ^_^
Команда форума
kif0rt
Вопросы "перегонки" и "выдирания" в данном форуме не обсуждаются по морально-этическим соображениям.
 

slach

Новичок
ошибка вот тут

xml_set_object($this->xmlParser, $this);
xml_set_element_handler($this->xmlParser, 'startElementHandler', 'endElementHandler');

внимательно посмотри в примеры
http://www.php.net/manual/en/function.xml-set-element-handler.php
и
http://www.php.net/manual/en/function.xml-set-object.php
 

crocodile2u

http://vbolshov.org.ru
slach
ай-яй-яй.

ну ладно, kif0rt - джентльмен в поисках десятки, но ты-то зачем ему помогаешь?
 

slach

Новичок
в чем???
в данном случае ставится вопрос как парсить HTML
не ставится вопрос как обойти каптчу или как сграить контент по сессионным кукам...

любой html парсится так или иначе
да в общем ответ то мой похоже на старости лет то тоже не шибко верный

тема скатилась в оффтопик туда ее и переношу
 
Статус
В этой теме нельзя размещать новые ответы.
Сверху