Проблема с регулярным выражением

programmer_2006

Новичок
Проблема с регулярным выражением

Я в загружаю полностью html страницу и пытаюсь удалить все html тыги вмести со скриптами использую
PHP:
$search = array('@<script[^>]*?>.*?</script>@siu', 
						'@<style[^>]*?>.*?</style>@siUu',
						'@<[\/\!]*?[^<>]*?>@siu',          
						'@<![\s\S]*?--[ \t\n\r]*>@u',
	                     "'&(quot|#34);'i",                 
		                 "'&(amp|#38);'i",
		                 "'&(lt|#60);'i",
		                 "'&(gt|#62);'i",
		                 "'&(nbsp|#160);'i",
		                 "'&(iexcl|#161);'i",
		                 "'&(cent|#162);'i",
		                 "'&(pound|#163);'i",
		                 
		                 "'&#(\d+);'e"
						);
		
		$str = preg_replace($search, '', $str);
Но почему то вырезаится и весь текст.Кодировка страницы в UTF-8 и кстати это свойственно для страниц с русским текстом.
 

Фанат

oncle terrible
Команда форума
sage
ну, от скриптов это не поможет.

programmer_2006
попробуй не "использовать", а сам написать
 

programmer_2006

Новичок
Автор оригинала: sage
[m]strip_tags[/m]
Не поможет не от стилей не от скриптов и эта функция оставляет пробельные символы.

Фанат так я ее сам и писал на основе той что в мануале + добавил кое что свое.Понимаешь ее клинет только с русским текстом, вырезает все кроме запятых точек и кавычек. А в чем дело не пойму.
 

Фанат

oncle terrible
Команда форума
ну тогда отлаживай свою функцию.
убирай из массива элементы по очереди, чтобы выяснить - какой из них убивает буквы
неужели так трудно самому догадаться сделать такую несложную вещь, а надо как всегда бежать на форум?
 

programmer_2006

Новичок
Уже делал. убивает буквы строка убирающая html теги.Но она мне нужно да и кто муже проблема только с русским языком.
 

Фанат

oncle terrible
Команда форума
логика в этом твоем сообщении есть? хоть какая-то?
 

programmer_2006

Новичок
логика в том что проблема только с русским языком, а это значит что проблема не в регулярке а в чем то еще...
 
Сверху