programmer_2006
Новичок
Проблема с регулярным выражением
Я в загружаю полностью html страницу и пытаюсь удалить все html тыги вмести со скриптами использую
Но почему то вырезаится и весь текст.Кодировка страницы в UTF-8 и кстати это свойственно для страниц с русским текстом.
Я в загружаю полностью html страницу и пытаюсь удалить все html тыги вмести со скриптами использую
PHP:
$search = array('@<script[^>]*?>.*?</script>@siu',
'@<style[^>]*?>.*?</style>@siUu',
'@<[\/\!]*?[^<>]*?>@siu',
'@<![\s\S]*?--[ \t\n\r]*>@u',
"'&(quot|#34);'i",
"'&(amp|#38);'i",
"'&(lt|#60);'i",
"'&(gt|#62);'i",
"'&(nbsp|#160);'i",
"'&(iexcl|#161);'i",
"'&(cent|#162);'i",
"'&(pound|#163);'i",
"'&#(\d+);'e"
);
$str = preg_replace($search, '', $str);