HTML PARSER новая волна

camka

не самка
Раз уж зашла речь об аналогах то позволю себе спросить:
в чем отличие от [m]tidy[/m] ?
 

xlex

Guest
Основная задача tidy, насколько я понимаю, в валидации а не построении структуры.
 

camka

не самка
Автор оригинала: xlex
Основная задача tidy, насколько я понимаю, в валидации а не построении структуры.
Tidy is a binding for the Tidy HTML clean and repair utility which allows you to not only clean and otherwise manipluate HTML documents, but also traverse the document tree.
 

xlex

Guest
Знаю. А живьём и API смотрел? Я вот ничего для построения дерева там не нашёл... Может, конечно, смотрел плохо, но в том что лежит в pecl не видел ничего полезного.
 

antonio

Moderator
Команда форума
Validator - это одна из фич, которая может быть сделана на базе моего парсера. Упор делался на пасинг файлов большого объема, сохранения распарсеной структуры для более быстрого reuse, построения различных фильтров и выборок данных
 

xlex

Guest
То есть принципиальных отличий от libxml2 нет (кроме того, что последняя - универсальная либа, а HTML parser - заточенный под задачу инструмент)?
 

antonio

Moderator
Команда форума
Автор оригинала: xlex
То есть принципиальных отличий от libxml2 нет (кроме того, что последняя - универсальная либа, а HTML parser - заточенный под задачу инструмент)?
Принципиальных отличий несколько:

1. Возможно сохранить распарсеный HTML|XML в файл и заюзать его без повторного разбора.

2. Работа с DTD не ведется, для контроля, управления|выправления закрытия тегов используется своя грамматика в XML виде.

3. Не планируется реализация XPath, вместо него планируется реализация API для выборок/изменений на базе SQLFH (www.sqlfh.com), но уже в сишной версии
 

VoDmAl

Guest
С момента последнего сообщения прошел месяц, сайт http://anton.concord.ru перестал откликаться. А мне интересно, как вообще обстоят дела в частности с:

Приглашаются желающие написать реконструктор в сериализованный массив для PHP.
Кто-нибудь взялся за это!? Ведь достаточно полезная штука получилась бы... :)
 

antonio

Moderator
Команда форума
Я был в отпуске, комп был без присмотра, теперь все ок.
 
Сверху