HTML parser

antonio · 24 Июл 2001

HTML parser

Насколько нужная клубу вещь? Я в свое время написал его для своих целей. Есть идея сделать его open source. Давайте обсудим.

anight · 24 Июл 2001

поддерживаю.
а что он сейчас уже умеет?

dak · 24 Июл 2001

Хотел бы взглянуть на этот парсер.
Contribution за мной

antonio · 24 Июл 2001

Во-первых он не строгий. Все ошибки трактуются как текст и код разбирается до конца в любом случае.
Во-вторых поддерживается XML style закрытие тегов
В-третьих это парсер с настраиваемой грамматикой, т.е. поменяв грамматику описания тэгов можно парсить и XML в том числе, правда в отает DOM не подучишь

структура будет моя. Парсятся даже тэги, которые не входят в грамматику, в общем конфигурь его как хошь и парси любые теги, единственное условие: как теги воспринимаются только структуры типа
<tagname [parname=["|']parvalue["|']] [parname] ...[/]> и </tagbname>

Тимофей · 24 Июл 2001

Можно глупый вопрос: а этот парсер написан на PHP и используется онлайн где-то? Можно ли узнать, для чего он использует онлайн в таком случае?

antonio · 24 Июл 2001

Это парсер написан на РНР. Даешь ему HTML код и получаешь в замен дерево (граф) тегов с которым уже очень просто работать в проге

antonio · 24 Июл 2001

А в моемо случае он используется в проге, которой нужно пасить HTML контент и делать разные хитрые штуки с ним

. Например мой proxy grabber использует этот инструмент

dr.vint · 25 Июл 2001

а mshtml вы юзали ?

antonio · 25 Июл 2001

Немного не понял, при чем здесь mshtml? Если надо парсить его, то никаких проблем не возникает.

dr.vint · 25 Июл 2001

Это я так, к слову
Там по моему все очень грамотно
html разбивается на коллекции, объекты и тп. и всем этим можно круто ворочать

antonio · 25 Июл 2001

У меня ест-но на коллекции ниче не разбивается, результатом является дерево. Ниче не мешает дописать создание коллекций самому, надо только будет пробежаться по дереву и сформировать данные коллекции, например как массив с ключами на именах тегов а значениями являются указатели на ветви дерева.

antonio · 25 Июл 2001

Зарегистрил проект на www.sourceforge.net. Жду ответа. Что хорошо - они дают CVS.

dr.vint · 25 Июл 2001

и как это на пхп шевелится ?

antonio · 25 Июл 2001

Скоро покажу

antonio · 25 Июл 2001

http://anton.concord.ru/htmlparser/htmlparser.zip

HTML parser

antonio

Moderator

anight

Новичок

dak

Guest

antonio

Moderator

Тимофей

Guest

antonio

Moderator

antonio

Moderator

dr.vint

Guest

antonio

Moderator

dr.vint

Guest

antonio

Moderator

antonio

Moderator

dr.vint

Guest

antonio

Moderator

antonio

Moderator