glukerrr
Guest
Хитрый парсер html-страничек
Добрый день!
Очень нужно написать хитрый преобразователь из html в ... тут без стакана не объяснить. Поэтому буду объяснять на примере.
Зайдите на какую-нибудь страничку. Да зачем ходить, давайте рассмотрим страничку на которую Вы сейчас смотрите. Она из себя представляет кучу всяких хтмл тэгов, стилей, и-фрэймов, форм и прочего барахла.
Теперь давайте нажмем на Ctrl+A - выделится весь контент на страничке, а потом жмем на Ctrl+Ins
Открываем какой-нибудь нотепад.. Главное, не какой-нибудь продвинутый редактор, типа ворда.. и делаем Shift+Ins
Видете что получилось ? Как сделать такое преобразование над html ?
Другой пример. Возьмите какую-нибудь хтмл страничку на вашем диске. открываем Total Commander (раньше навывался Windows Commander) и нажимаем на F3 на этой хтмл-ке.
Если вы видете до сих пор html код, то просто нажмите цифру 4 и все преобразуется (1- нормальный вид, 3-HEX)
Особенно советую посмотреть странички с таблицами данных.
Не знаю какой алгоритм использовал автор Тотала, но это примерно то что мне и нужно..
Слышай есть такой браузер lynx - консольный.. Он наверное фриварный и сорцы есть к нему. Но в них копаться думаю будет долго. Может быть кто-то сталкивался с подобной задачей и знает как тут можно помочь. Чтобы мне не начинать с нуля.
Большое спасибо
Добрый день!
Очень нужно написать хитрый преобразователь из html в ... тут без стакана не объяснить. Поэтому буду объяснять на примере.
Зайдите на какую-нибудь страничку. Да зачем ходить, давайте рассмотрим страничку на которую Вы сейчас смотрите. Она из себя представляет кучу всяких хтмл тэгов, стилей, и-фрэймов, форм и прочего барахла.
Теперь давайте нажмем на Ctrl+A - выделится весь контент на страничке, а потом жмем на Ctrl+Ins
Открываем какой-нибудь нотепад.. Главное, не какой-нибудь продвинутый редактор, типа ворда.. и делаем Shift+Ins
Видете что получилось ? Как сделать такое преобразование над html ?
Другой пример. Возьмите какую-нибудь хтмл страничку на вашем диске. открываем Total Commander (раньше навывался Windows Commander) и нажимаем на F3 на этой хтмл-ке.
Если вы видете до сих пор html код, то просто нажмите цифру 4 и все преобразуется (1- нормальный вид, 3-HEX)
Особенно советую посмотреть странички с таблицами данных.
Не знаю какой алгоритм использовал автор Тотала, но это примерно то что мне и нужно..
Слышай есть такой браузер lynx - консольный.. Он наверное фриварный и сорцы есть к нему. Но в них копаться думаю будет долго. Может быть кто-то сталкивался с подобной задачей и знает как тут можно помочь. Чтобы мне не начинать с нуля.
Большое спасибо