Вопрос по парсингу

Dareczek · 6 Июн 2013

Здравствуйте. Хотелбы спросить где можно найти полезную инфу про парсинг. Уточню вопрос. Допустим есть *.xml файл, мне с его нужно вытянуть только ссылки. Главное узнать как бы можно его обработать как нибуть. Например все по ключу topic или как то так. Извините за нубство )

md5S · 6 Июн 2013

Начни с википедии.

hell0w0rd · 6 Июн 2013

http://php.net/manual/en/book.simplexml.php
Но боюсь если цель своей хотелки не объявишь - темку скоро прикроют

Dareczek · 8 Июн 2013

Допустим есть такой кусочек кода:

PHP:

<ExternalPage about="http://www.awn.com/">
    <d:Title>Animation World Network</d:Title>
    <d:Description>Provides information resources to the international animation community. Features include searchable database archives, monthly magazine, web animation guide, the Animation Village, discussion forums and other useful resources.</d:Description>
    <priority>1</priority>
    <topic>Top/Arts/Animation</topic>
  </ExternalPage>
  <ExternalPage about="http://animation.about.com/">
    <d:Title>About.com: Animation Guide</d:Title>
    <d:Description>Keep up with developments in online animation for all skill levels. Download tools, and seek inspiration from online work.</d:Description>
    <topic>Top/Arts/Animation</topic>
  </ExternalPage>

Мне нужно получить все ссылки из ExternalPage. Я делал вот так:

PHP:

$xml = simplexml_load_file("data.xml");

for($i = 0; count($xml->ExternalPage) > $i; $i++)
{
	echo $xml->ExternalPage[$i]['about'];
	echo '<br/>';
}

Но, это очень долго времени занимает. У меня 7кб файл текста, почти 2мин обробатывал. Помогите сократить время.

hell0w0rd · 8 Июн 2013

Dareczek
Как минимум убрать вызов на каждый проход count
$size = count($xml->ExternalPage);
for($i = 0; $size > $i; $i++){}
Еще я не уверен, но мне кажется можно получить выборку XPath'ом и пройтись по ней, а не через цикл

Dareczek · 8 Июн 2013

hell0w0rd написал(а):
Dareczek
Как минимум убрать вызов на каждый проход count
$size = count($xml->ExternalPage);
for($i = 0; $size > $i; $i++){}
Еще я не уверен, но мне кажется можно получить выборку XPath'ом и пройтись по ней, а не через цикл

Спасибо за подсказку про счетчик. Реально он много времени жрет при этом. Спасибо. а про XPath побежал почитаю. Спс еще раз

Dareczek · 8 Июн 2013

Dareczek написал(а):
Спасибо за подсказку про счетчик. Реально он много времени жрет при этом. Спасибо. а про XPath побежал почитаю. Спс еще раз

Проверил на сколько сократилось... С 37секунд запроса на 11сек. Реально круто )).

hell0w0rd · 8 Июн 2013

Dareczek написал(а):
Проверил на сколько сократилось... С 37секунд запроса на 11сек. Реально круто )).

это после count, или xpath?

Dareczek · 8 Июн 2013

hell0w0rd написал(а):
это после count, или xpath?

после count, а про xpath я пока нечего не понял, читаю еще

Dareczek · 8 Июн 2013

с использованием xpath нечего хорошего пока не сдела... Может можете помочь...

hell0w0rd · 8 Июн 2013

Я сам им никогда не пользовался, просто знаю что это выборка по xml-дереву.. Вроде для вашего случая это будет как-то так:

PHP:

$res = $xml->xpath('/ExternalPage/about/');

Dareczek · 8 Июн 2013

hell0w0rd написал(а):
Я сам им никогда не пользовался, просто знаю что это выборка по xml-дереву.. Вроде для вашего случая это будет как-то так:

PHP:

$res = $xml->xpath('/ExternalPage/about/');

Почитал еще более про это в справочнике, и то что вы выше написали должно работать, и еще как. Но у меня показывает пусотй массив. Т.е array(0) { } . Перепробовал разные пути, но все ровно массив пустой )). вот такой примерно xml

PHP:

<?xml version="1.0" encoding="UTF-8"?>
<RDF xmlns:r="http://www.w3.org/TR/RDF/" xmlns:d="http://purl.org/dc/elements/1.0/" xmlns="http://dmoz.org/rdf/">
  <Topic r:id="">
    <catid>1</catid>
  </Topic>
  <Topic r:id="Top/Arts">
    <catid>381773</catid>
  </Topic>
  <Topic r:id="Top/Arts/Animation">
    <catid>423945</catid>
    <link1 r:resource="http://www.awn.com/"></link1>
    <link r:resource="http://animation.about.com/"></link>
    <link r:resource="http://www.toonhound.com/"></link>
    <link r:resource="http://enculturation.gmu.edu/2_1/pisters.html"></link>
    <link r:resource="http://www.digitalmediafx.com/Features/animationhistory.html"></link>
    <link r:resource="http://www.spark-online.com/august00/media/romano.html"></link>
    <link r:resource="http://www.animated-divots.net/"></link>
  </Topic>
  <ExternalPage about="http://www.awn.com/">
    <d:Title>Animation World Network</d:Title>
    <d:Description>Provides information resources to the international animation community. Features include searchable database archives, monthly magazine, web animation guide, the Animation Village, discussion forums and other useful resources.</d:Description>
    <priority>1</priority>
    <topic>Top/Arts/Animation</topic>
  </ExternalPage>

Писал и

PHP:

$xml->xpath('/RDF/ExternalPage')

, но резултата нет. Может че не так делаю?

hell0w0rd · 8 Июн 2013

Dareczek
Да, у вас в xml-ке используются неймспейсы

Dareczek · 8 Июн 2013

hell0w0rd написал(а):
Dareczek
Да, у вас в xml-ке используются неймспейсы

а тогда как к ним можно сделать такую же фичу? Ну я про $xml->xpath() Извините если туплю

hell0w0rd · 8 Июн 2013

Dareczek
Вы обрезаете ноды, я не могу загрузить вашу строчку. У вас на вход идет умный xml, его точно xpath будет разбирать быстрее, посмотрите 2 лекции с ШРИ по xml и xpath
http://events.yandex.ru/events/shri/msk-2012/talks/555/
http://events.yandex.ru/events/shri/msk-2012/talks/556/

Dareczek · 8 Июн 2013

hell0w0rd написал(а):
Dareczek
Вы обрезаете ноды, я не могу загрузить вашу строчку. У вас на вход идет умный xml, его точно xpath будет разбирать быстрее, посмотрите 2 лекции с ШРИ по xml и xpath
http://events.yandex.ru/events/shri/msk-2012/talks/555/
http://events.yandex.ru/events/shri/msk-2012/talks/556/

Я здесь даю лишь пару строчек, так как селый xml файл занимет 2 гига)) там почти 15милиардов строк ). Нужно както сделать парсер, который вытянет ссылки. Уже какбы и сделал, но он грузит веками, и то незагружает так как некоторые функции не загружают 2ГБ файлов. А про 2 лекции с ШРИ по xml и xpath уже пошел смотреть. Спс за помощь.

hell0w0rd · 8 Июн 2013

Dareczek
simplexml тогда не подойдет, он грузит полностью строку в память.

WMix · 8 Июн 2013

если не ошибся, то так

PHP:

function startElemHandler($parser, $name, $attribs) {
    if (strcasecmp($name, "ExternalPage") == 0) {
        foreach($attribs as $key => $val){
            if (strcasecmp($key, "about") == 0) {
                echo $name. " ".$key." = ".$val;
            }
        }
    }
}
function endElemHandler($parser, $name) {}

// создаем парсер
$parser = xml_parser_create();
xml_set_element_handler($parser, startElemHandler, endElemHandler);

// читаем файл порциями и парсим
$fh = fopen($xml_file, "r");
while (!feof($fh)) {
    $data = fread($fh, 4096);
    xml_parse($parser, $data, feof($fh));
}
// для теста
//xml_parse($parser, '<xml>......</xml>');

xml_parser_free($parser);

Вопрос по парсингу

Dareczek

Новичок

md5S

Это вам не это.

hell0w0rd

Продвинутый новичок

Dareczek

Новичок

hell0w0rd

Продвинутый новичок

Dareczek

Новичок

Dareczek

Новичок

hell0w0rd

Продвинутый новичок

Dareczek

Новичок

Dareczek

Новичок

hell0w0rd

Продвинутый новичок

Dareczek

Новичок

hell0w0rd

Продвинутый новичок

Dareczek

Новичок

hell0w0rd

Продвинутый новичок

Dareczek

Новичок

hell0w0rd

Продвинутый новичок

WMix

герр M:)ller