Регулярка. Задача парсинга html.

BigWindow · 29 Фев 2008

Регулярка. Задача парсинга html.

Всем привет!

Вот возникла проблема в парсинге html.

Вот код:

PHP:

preg_match_all("/<p>(.*)<\/p>/is", $result, $linesArray);

Код работает отлично в таком случае:

PHP:

<p>Некий текст</p><p>Некий текст номер 2</p>

Имеем: "Некий текст" и "Некий текст номер 2"

Но в этом случае он работает коряво:

PHP:

<p>Некий <p>Некий текст номер 2</p> текст</p>

Имеем: "Некий Некий текст номер 2"

Собственно вопрос по регулярке. Как решить эту проблему?

Bitterman · 29 Фев 2008

1. Зачем тебе это нужно?
2. А что ты хочешь получить во втором случае?

BigWindow · 29 Фев 2008

Автор оригинала: Bitterman
1. Зачем тебе это нужно?

Парсинг чужого сайта.

Автор оригинала: Bitterman
2. А что ты хочешь получить во втором случае?

Собственно хочу получить две строки: "Некий текст" и "Некий текст номер 2"

Вообще можно просто убрать квантификатор жадности (что я и сделал), и тогда в массив уйдет вся строка. Но хочется все-таки узнать как сделать во втором случае. Ибо может возникнуть ситуация, где квантификатор жадности будет нужен.

Bitterman · 29 Фев 2008

Парсинг чужого сайта.

Подобные темы здесь не обсуждаются.

BigWindow · 29 Фев 2008

Автор оригинала: Bitterman
Подобные темы здесь не обсуждаются.

Чтобы изменилось, если бы я привел другой пример?

Mr_Max · 29 Фев 2008

BigWindow
Ничего. Темы парсинга легко узнаваемы.

BigWindow · 29 Фев 2008

Автор оригинала: Mr_Max
BigWindow
Ничего. Темы парсинга легко узнаваемы.

Согласен. Хотя действительно очень интересно решение приведенной выше задачи.

Эх! Тема закрыта.

Активист · 2 Мар 2008

Если не ошибаюсь, то
Некий Некий текст номер 2 текст
Не правильный вид HTML

Tidy, хороший инструмент

Регулярка. Задача парсинга html.

BigWindow

Новичок

Bitterman

Новичок

BigWindow

Новичок

Bitterman

Новичок

BigWindow

Новичок

Mr_Max

Первый класс. Зимние каникулы ^_^

BigWindow

Новичок

Активист

Активист