Помощь с регулярками

Статус
В этой теме нельзя размещать новые ответы.
Есть html-страница с 20ью постами. Структура вот такая:

HTML:
<div class="post ord u53032" id="p1434079"> <!-- u53032 и p1434079 разные + могут добавляться дополнительные классы -->
	<div class="dt">[ тут content с разными html-тэгами ]</div>
	<div class="dd">[ тут сопутствующая информация с разными html-тэгами ]</div>
</div>

<div class="post ord u20445" id="p1434066"> <!-- через пустые строки и пробелы начинается новый пост -->
нужны две регулярки:
1. для разбиения страницы на 20 записей
(предварительная версия
PHP:
preg_match_all( '/<div[^>]*class="post ord[^>]*>(.*)<\/div>[\s]*<div[^>]*class="post ord/Uis', $response['body'], $matches );
)
2. для извлчения content'а
(предварительная версия
PHP:
preg_match_all( '/<div class="dt">(.*)<\/div>[\s]*<div class="dd">/Uis', $post, $content );
)

Предварительные версии - это то, что получилось у меня методом тыка.
 

Andreika

"PHP for nubies" reader
посочувствовать? порадоваться? или что-то еще от нас то что надо?
 

Фанат

oncle terrible
Команда форума
Вообще, отношение к вопросам на тему "как чего распарсить" здесь крайне неодобрительное.
Нам не хочется думать, что парсят у кого-то из нас, и у нас же спрашивают в этом помощи.

Обычно, если сайт не против отдавать какую-либо информацию, он предоставляет цивилизованные средства обмена контентом
 
Вообще, отношение к вопросам на тему "как чего распарсить" здесь крайне неодобрительное.
Нам не хочется думать, что парсят у кого-то из нас, и у нас же спрашивают в этом помощи.
Обычно, если сайт не против отдавать какую-либо информацию, он предоставляет цивилизованные средства обмена контентом
понятно. но это не тот случай.
 

флоппик

promotor fidei
Команда форума
Партнер клуба
Он как бы намекает, что они нужны тебе, а не нам.
 
Он как бы намекает, что они нужны тебе, а не нам.
я думаю ответы на все вопросы, заданные в этом форуме, так или иначе нужны создателям вопросов. Это причина флудить на форуме? Вы, я вижу, модератор.
 

Фанат

oncle terrible
Команда форума
Кстати, цитировать фразу "нужны 2 регулярки" было стратегически неверно.
Надо было цитировать "вот что получилось у меня методом тыка, помогите допилить"
тогда отношение было бы более лояльное.
просто читатели форумов, как и старина Мюллер, реагируют только на последню сказанную фразу.
 
  • Like
Реакции: WMix
Кстати, цитировать фразу "нужны 2 регулярки" было стратегически неверно.
Надо было цитировать "вот что получилось у меня методом тыка, помогите допилить"
тогда отношение было бы более лояльное.
просто читатели форумов, как и старина Мюллер, реагируют только на последню сказанную фразу.
буду знать. за месяц, что я тут слежу за постами, не привык к местным традициям. )
 

Фанат

oncle terrible
Команда форума
это старый сайт со старым движком, к которому хотят, но никак не прикрутят RSS. А предыдущий сервис, парсящий новые посты, уже не работает.
Ну так и надо прикручивать рсс к старому движку. Зачем вырезать гланды через спину автогеном?
 

Redjik

Джедай-мастер
это старый сайт со старым движком, к которому хотят, но никак не прикрутят RSS. А предыдущий сервис, парсящий новые посты, уже не работает.
видимо и со старой базой, к которой нельзя подключиться и взять все напрямую
 

Redjik

Джедай-мастер
"мопед не мой". Я все сайты, которые вижу с недоработками, должен дорабатывать?
упаси боже - нет конечно, вот как осилишь первую книгу по PHP - тут можно попробовать, а до этого - не вздумай.

Вот тебе пока
http://phpclub.ru/detail/article/regexp_1
http://phpclub.ru/detail/article/regexp_2
http://gskinner.com/RegExr/
 
Статус
В этой теме нельзя размещать новые ответы.
Сверху