вырезать весь мусор (тэги и тд) из HTML

  • Автор темы PhpGuest
  • Дата начала

PhpGuest

Guest
вырезать весь мусор (тэги и тд) из HTML

Падскажите плз эффективное по скорости решение вырезания всех тэгов ( фильтрация HTML ) из html кода чтобы остался только значимаый текст (а не разметка и тд)..


пример html:

<title>Заголовок
</title>
<style>
h1:{...}
</style>

<script...>
function ...
</script...>

<body...>
Это начало текста
<style>
a:{...}
</style>

Это середина текста

<script...>
function ...
</script...>
Это продолжение текста
<body...>
 

SelenIT

IT-лунатик :)
А это что, не теги? В любом случае, что нам говорит эксперимент?
 

PhpGuest

Guest
Автор оригинала: SelenIT
А это что, не теги? В любом случае, что нам говорит эксперимент?
экскримент грит что всё что внутри <scritp>..</script> и им подобных остается
 

PhpGuest

Guest
эффективнее решений не существет?

+ если юзать strip_tags как заставить его такое не делать :

<a h ref'..'>Текст1</a>Текст2

на выходе -> Текст1Текст2 (слитно) хотелось бы раздельно %)


+ как модифицировать
$htmlstring = preg_replace("'<style[^>]*>.*</style>'siU",'',$htmlstring);

так чтобы обрабатывались конструкции
<style>
...
</style>
Текст
<style>
...
</style>

чтобы "Текст" не удалялся
в частности пример на

http://ru2.php.net/manual/ru/function.preg-replace.php

работает абы как :(
 

SelenIT

IT-лунатик :)
Внимательнее читать все, где говорится про жадность квантификаторов и все способы ее изменения.
 

SelenIT

IT-лунатик :)
Ну в первом-то случае, похоже, минимизатор жадности и необязателен...
 
Сверху