Регулярка. Задача парсинга html.

Статус
В этой теме нельзя размещать новые ответы.

BigWindow

Новичок
Регулярка. Задача парсинга html.

Всем привет!

Вот возникла проблема в парсинге html.

Вот код:
PHP:
preg_match_all("/<p>(.*)<\/p>/is", $result, $linesArray);
Код работает отлично в таком случае:
PHP:
<p>Некий текст</p><p>Некий текст номер 2</p>
Имеем: "Некий текст" и "Некий текст номер 2"

Но в этом случае он работает коряво:
PHP:
<p>Некий <p>Некий текст номер 2</p> текст</p>
Имеем: "Некий <p>Некий текст номер 2"

Собственно вопрос по регулярке. Как решить эту проблему?
 

Bitterman

Новичок
1. Зачем тебе это нужно?
2. А что ты хочешь получить во втором случае?
 

BigWindow

Новичок
Автор оригинала: Bitterman
1. Зачем тебе это нужно?
Парсинг чужого сайта. :D
Автор оригинала: Bitterman
2. А что ты хочешь получить во втором случае?
Собственно хочу получить две строки: "Некий текст" и "Некий текст номер 2"

Вообще можно просто убрать квантификатор жадности (что я и сделал), и тогда в массив уйдет вся строка. Но хочется все-таки узнать как сделать во втором случае. Ибо может возникнуть ситуация, где квантификатор жадности будет нужен.
 

Mr_Max

Первый класс. Зимние каникулы ^_^
Команда форума
BigWindow
Ничего. Темы парсинга легко узнаваемы.
 

BigWindow

Новичок
Автор оригинала: Mr_Max
BigWindow
Ничего. Темы парсинга легко узнаваемы.
Согласен. Хотя действительно очень интересно решение приведенной выше задачи.

Эх! Тема закрыта.
 

Активист

Активист
Команда форума
Если не ошибаюсь, то
<p>Некий <p>Некий текст номер 2</p> текст</p>
Не правильный вид HTML

Tidy, хороший инструмент
 
Статус
В этой теме нельзя размещать новые ответы.
Сверху