[regexp] парсинг html, создание шаблона по списку страниц

zaartix · 18 Фев 2009

[regexp] парсинг html, создание шаблона по списку страниц

не смог сформулировать точнее тему. Пишу парсер html для определения шаблона страниц.
На входе несколько страниц html одного сайта. Я хочу разбить каждую страницу на теги, не теряя текст и порядок тегов. Пытаюсь делать это таким регом:

PHP:

preg_match_all('/(<(li|dd|dt|div|td|tr)[^>]*>)(.*?)(<\/\\2>)/si',$html,$matches);

Эти теги я выбрал т.к. именно они (на мой взгляд) могут задавать структуру шаблона. Родителей этих тегов не беру специально, т.к. не вижу в них смысла.
По-сути мне надо разбить страницу на эти теги + все, что до первого из них (типа хидера) и все, что после последнего (типа футера).

Только вот беда, на некоторых страницах этот рег "съедает" огромные куски кода, которые можно размельчить гораздо сильнее. Можно как-то указать, что сначала надо делить в таком порядке - li, dd, dt, div, td, tr?

Основная суть:
мельчить страницу на указанные теги в массив и сравнивать с массивом тегов второй страницы. Там, где будут расхождения - заменять содержимое тега на, к примеру: "<td></td>". Таким образом я надеюсь получить типичный для текущего сайта шаблон.

Модерторов прошу не считать эту тему запрещенной, т.к. речь идет об индексаторе, а не граббере.

-~{}~ 18.02.09 16:58:

Соответственно, для выдирания хидера и футера используется

PHP:

preg_match_all('/^(.*?)(<(li|dd|dt|div|td|tr)[^>]*>)/si',$html,$matches);

preg_match_all('/(<(li|dd|dt|div|td|tr)[^>]*>)(.*?)$/si',$html,$matches);

DiMA · 18 Фев 2009

> на некоторых страницах этот рег "съедает" огромные куски кода

конечно, если будет незакрытый тег типа
<li> <li> </li>

или <td> а тут кучу других тегов </td>

Почему ты не хочешь взять готовый парсер хтмл, строящий дерево всех тегов?

zaartix · 18 Фев 2009

наверное не умею искать, нашел
http://www.phpclasses.org/browse/package/1420.html
он кривой, всмысле на некоторых реальных страницах все разъезжалось.

http://www.phpclasses.org/browse/package/4048.html
этот ближе, но он шибко "разворачивает", памяти куча сжирается. Да и много лишнего в нем, т.к. он немного для другого.

Т.е. ты считаешь, что тут лучше всего использовать парсер всего хтмл? Мне просто потом из этого дерева еще хорошо-бы собрать обратно хтмл

Может порекомендуешь какой-нибудь?

DiMA · 18 Фев 2009

я использую парсер от antonio, с другими по скорости не сравнивал, багов не видел

zaartix · 18 Фев 2009

не сложно-ли будет подсказать где искать? гугль и яндекс сходу не ответили. Ну или совсем в идеале - [email protected]

-~{}~ 18.02.09 17:23:

уж не http://www.phpclub.ru/detail/article/2002-11-29 этот ли?

DiMA · 18 Фев 2009

этот. Не знаю, на счет версии. Я его доработал для обработки писем и вырезания от туда всех не разрешенных тегов или атрибутов.

x-yuri · 19 Фев 2009

zaartix можешь еще посмотреть выделение различий в текстах и Выявление смысловых блоков в веб страницах (построение карты объектов)

а по поводу parser'ов есть еще http://ua2.php.net/manual/en/book.dom.php и http://phpimpact.wordpress.com/2008/08/07/php-simple-html-dom-parser-jquery-style/

antonio · 24 Фев 2009

www.sf.net/projects/html-parser

[regexp] парсинг html, создание шаблона по списку страниц

zaartix

Новичок

DiMA

php.spb.ru

zaartix

Новичок

DiMA

php.spb.ru

zaartix

Новичок

DiMA

php.spb.ru

x-yuri

Новичок

antonio

Moderator