Screjet
Новичок
Не удается HTML парсер
Люди! Кто работал над нечто, описанным ниже, поскажите ПЛЗЗ!
Как-то работал над HTML парсером, за основу взял готовый ПХП XML парсер, но и syntax error возник еще до начала парсинга:
меняю PUBLIC -> SYSTEM -- проходит..
В спецификации XLM атрибуты должны быть закавычены, а в HTML редко кто это делает, тоже ошибки.. Можно как-то "обойти/взломать"? (с) matrix
Вся идея такого парсера заключается в анализе HTML документов роботом, а процесс парсинга, думаю, значительно быстрее, чем грепать регулярными выражениями (на которых сие чудо пока и работает
)..
Люди! Кто работал над нечто, описанным ниже, поскажите ПЛЗЗ!
Как-то работал над HTML парсером, за основу взял готовый ПХП XML парсер, но и syntax error возник еще до начала парсинга:
PHP:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 2.0 Transitional//EN">
В спецификации XLM атрибуты должны быть закавычены, а в HTML редко кто это делает, тоже ошибки.. Можно как-то "обойти/взломать"? (с) matrix
Вся идея такого парсера заключается в анализе HTML документов роботом, а процесс парсинга, думаю, значительно быстрее, чем грепать регулярными выражениями (на которых сие чудо пока и работает
