Нужна помощь с preg_replace

Kela · 15 Авг 2007

Нужна помощь с preg_replace

К примеру, есть такой текст:

PHP:

$msg = '
    <p class="someclass">Привет, <b>Коля</b>! Как жизнь?</p>
    <p>Спасибо,- <b>Хорошо!</b> Как ты?</p>

    <p class="someclass">Привет, Коля! Как жизнь?</p>
    <p>Спасибо,- <b>Хорошо!</b> Как ты?</p>';

(в первом примере слово Коля заключено в тег , во втором варианте - нет)

задача состоит в том, чтобы убрать тэг  из абзаца с классом "someclass". Я пишу такой код:

PHP:

$msg = preg_replace('~<p class="someclass">(.*?)<b>(.*?)</b>(.*?)</p>~ius', '<p class="someclass">$1$2$3</p>', $msg);

В первом случае код отрабатывается нормально и тег убирается, однако во втором случае тег  убирается из второго абзаца, у которого нет класса "someclass".
После перечитывания мануала в третий раз, я сообразил, что это происходит из-за того, что во втором случае шаблон (.*?) "съедает" все до первого встреченного тега , не останавливаясь на первом закрывающем теге , как я задумывал. Таким образом, тег убирается из второго абзаца.

Собственно вопрос: как заставить регулярное выражение не перешагивать через первый встреченный закрывающий тег ? Иными словами, как делать сопоставление регулярного выражения ТОЛЬКО в пределах абзаца?

Для удобства, здесь исходный текст программы (17 строк, 560 байт), здесь она же в работе.

Dl · 15 Авг 2007

Попробовать добавить условие, чтобы до не встречалась последовательность ?

Kela · 15 Авг 2007

Я бы попробывал, но не знаю, как слепить все вкучу потом

Шаблон (?<!) - перед текущей позицией нет 

как сформировать шаблон: "что угодно, кроме "?

mishco · 15 Авг 2007

Может легче разбить задачу на составляющие? preg_match_all'ить все что между и уже там preg_replace'ить ? особенно если нет уверенных знаний регулярок.

Kela · 15 Авг 2007

mishco
Это на крайний случай, не хотелось бы связываться с циклами там, где можно обойтись регуляркой... Но если никто не предложит такой вариант - придется так...

Dl · 15 Авг 2007

Подсказка:
между и можно вставить символьный класс с условием "что угодно, кроме "

Kela · 15 Авг 2007

Dl
Я это понимаю, и словами сказать могу, а в регулярных выражениях описать не могу...

_Leonchik_ · 15 Авг 2007

^ - отрицание, когда находится в нужном месте.

Kela · 15 Авг 2007

ОК. Буду размышлять вслух.

[^p] - что угодно, кроме символа p. Пробуем сделать обратную задачу: соответствует .

() == ([<][/][p][>])

Применим отрицание:

([^<][^/][^p][^>])*? - получим в круглых скобках "четыре символа, вместе которые НЕ составляют ", за скобками: "вся эта конструкция может быть ноль или более раз"!

Похоже то, что нам нужно! Исключим этот шаблон из соответствия и получим так: (?:[^<][^/][^p][^>])*?

Итого, окончательный вариант должен звучать так:

PHP:

$msg = preg_replace('~<p class="someclass">((?:[^<][^/][^p][^>])*?)<b>(.*?)</b>(.*?)</p>~ius', '<p class="someclass">$1$2$3</p>', $msg);

Что я могу сказать? - На практике работает! А в теории, никто подводных камней не видит, как в моем первоначальном варианте?

Добавлено:

Кстати, в парсере форума ошибка: если написать > с последующей закрывающей круглой скобкой, то между ними появится пробел!

>)

-~{}~ 15.08.07 15:59:

Ошибку нашел сам.

Мы опять обламаемся, если перед будет стоять какой-то другой тег, например .

У меня сейчас мозги вскипят

Я плакаль.... Как же сделать отрицание именно ?

mishco · 15 Авг 2007

Kela
это не ошибка, это специально. и это не только в этом случае, например в <some event="javascript:foobar();">tag?</sometag>

Kela · 15 Авг 2007

mishco
Ну, ладно.... это оффтоп был... меня больше регульрное выражение интересует...

dimagolov · 15 Авг 2007

не подумал хорошо....

Kela · 15 Авг 2007

Может, я что-то не так понимаю, но символ ^ означает отрицание только в начале символьного класса [^a] (не а). В противном случае он означает начало данных.

Таким образом ^() не есть отрицание , ИМХО.

Исправьте, если я ошибаюсь...

Lews · 16 Авг 2007

~ius заменить на ~iUs

-~{}~ 16.08.07 00:58:

в самой первой регулярке.

Единственное - никакие ухищрения не помогут с вложенными тэгами - там только циклом/рекурсией.

Kela · 16 Авг 2007

Lews

строка в UTF8,- поэтому и параметр u стоит.

А добавлением U вы всего лишь инвертируете "жадность" квантификаторов. Т.е. * станет "не жадным", а *? - жадным.

Успеха это не добавит, к сожалению...

Lews · 16 Авг 2007

Не знал про *?

telega-ru · 16 Авг 2007

Если нужно не именно убрать тег, а просто не отображать его жирным шрифтом, можно сделать это с помощью css:
<style>
.someclass b {
font-weight: normal;
}
</style>

Dl · 16 Авг 2007

Ну, можно использовать preg_replace_callback и внутри проверять на

Kela · 16 Авг 2007

telega-ru
Нет - нужно именно убрать!

Splurov · 16 Авг 2007

Kela
А если так:

PHP:

$msg = preg_replace('~(<p class="someclass">.*?)<b>(.*?)</b>(.*?</p>)((?:.*?</p>)*)~is', '$1$2$3$4', $msg);

?
пробелы лишние между ">" и ")"

Нужна помощь с preg_replace

Новичок

Новичок

Новичок

Oo

Новичок

Новичок

Новичок

Новичок

Новичок

Oo

Новичок

Новичок

Новичок

Новичок

Новичок

Новичок

Новичок

Новичок

Новичок

Новичок