HTML parser

antonio

Moderator
Команда форума
HTML parser

Насколько нужная клубу вещь? Я в свое время написал его для своих целей. Есть идея сделать его open source. Давайте обсудим.
 

dak

Guest
Хотел бы взглянуть на этот парсер.
Contribution за мной :)
 

antonio

Moderator
Команда форума
Во-первых он не строгий. Все ошибки трактуются как текст и код разбирается до конца в любом случае.
Во-вторых поддерживается XML style закрытие тегов
В-третьих это парсер с настраиваемой грамматикой, т.е. поменяв грамматику описания тэгов можно парсить и XML в том числе, правда в отает DOM не подучишь :) структура будет моя. Парсятся даже тэги, которые не входят в грамматику, в общем конфигурь его как хошь и парси любые теги, единственное условие: как теги воспринимаются только структуры типа
<tagname [parname=["|']parvalue["|']] [parname] ...[/]> и </tagbname>
 

Тимофей

Guest
Можно глупый вопрос: а этот парсер написан на PHP и используется онлайн где-то? Можно ли узнать, для чего он использует онлайн в таком случае?
 

antonio

Moderator
Команда форума
Это парсер написан на РНР. Даешь ему HTML код и получаешь в замен дерево (граф) тегов с которым уже очень просто работать в проге
 

antonio

Moderator
Команда форума
А в моемо случае он используется в проге, которой нужно пасить HTML контент и делать разные хитрые штуки с ним :). Например мой proxy grabber использует этот инструмент
 

antonio

Moderator
Команда форума
Немного не понял, при чем здесь mshtml? Если надо парсить его, то никаких проблем не возникает.
 

dr.vint

Guest
Это я так, к слову
Там по моему все очень грамотно
html разбивается на коллекции, объекты и тп. и всем этим можно круто ворочать
 

antonio

Moderator
Команда форума
У меня ест-но на коллекции ниче не разбивается, результатом является дерево. Ниче не мешает дописать создание коллекций самому, надо только будет пробежаться по дереву и сформировать данные коллекции, например как массив с ключами на именах тегов а значениями являются указатели на ветви дерева.
 
Сверху