preg_match_all - помогите разобраться

mac · 16 Июн 2005

preg_match_all - помогите разобраться

Уважаемые, помогите разобраться.
Есть кусок html-кода, в котором присутствует большое количество строк:
<a class=n href="ссылка">nbsp;nbsp;nbsp;текст ссылки</a>
и
<a class=n href="ссылка">nbsp;текст ссылки</a>

необходимо вытащить оттуда "ссылку" и "текст ссылки".
С вытаскиванием "ссылки" проблем нет. С отбрасыванием разного количества nbsp; тоже. А вот с тегами и - проблема, не могу их откинуть.

Вот сам шаблон:
preg_match_all("|<a class=n href=\"(.*)\">[nbsp;][nbsp;]{5,17}+(.*)</a>|Usi", $first, $third_step);

sage · 16 Июн 2005

немного не понятно, что означает плюсик после {5,17}?

-~{}~ 16.06.05 21:50:

а как ты их откидываешь, если во 2 карман сохраняется всё то, что следует после nbsp;?

sakon · 16 Июн 2005

mac
Обясни, что означает эта конструкция
[nbsp;][nbsp;]{5,17}+
и найди ее во втором примере

А вобщем то тебе сюда -> PHP FAQ: Регулярные выражения.

mac · 16 Июн 2005

я откидываю все nbsp; и еще нужно откинуть теги , т.е. мне нужны только "ссылка" и "текст ссылки"

sage · 16 Июн 2005

mac
ты, похоже, не читаешь ответы... Ты на мой вопрос можешь дать ответ?

mac · 16 Июн 2005

Автор оригинала: sakon
mac
Обясни, что означает эта конструкция
[nbsp;][nbsp;]{5,17}+
и найди ее во втором примере

А вобщем то тебе сюда -> PHP FAQ: Регулярные выражения.

там я уже был, и на основе этого делал шаблон...
этой конструкцией ( [nbsp;][nbsp;]{5,17}+ ) я откидываю ненужные nbsp;, их ведь разное количество может быть - опять же, руководствовался мануалом...
может я что-то и не так понял..
поэтому и спрашиваю

Serguitar · 16 Июн 2005

mac
Однозначно, ты не совсем так понял то, что прочёл.
Но подход твой правильный. У тебя были ещё варианты? Покажи.

mac · 16 Июн 2005

этот вариант единственный, который позволяет отбросить nbsp;, остальные откидывали либо один символ, либо один nbsp;

preg_match_all("|<a class=n href=\"(.*)\">(&nbsp\

+(.*)</a>|Usi", $first, $third_step);

preg_match_all("|<a class=n href=\"(.*)\">(.+&nbsp

(.*)</a>|Usi", $first, $third_step);

preg_match_all("|<a class=n href=\"(.*)\".*?(\&nbsp\

+(.*)</a>|Usi", $first, $third_step);

preg_match_all("|<a class=n href=\"(.*)\"> (.*)(.*?)</a>|Usi", $first, $third_step);

не факт, что они рабочие - я просто комментировал неподходящий шаблон и брался за новый..

rooot · 16 Июн 2005

PHP:

$patterns[0] = "/<b>/";
$patterns[1] = "/</b>/";
$replacements[0] = "";
$replacements[1] = "";
$content= preg_replace($patterns, $replacements, $string);

должны исчезнуть.

mac · 16 Июн 2005

PHP:
Автор оригинала: rooot

PHP:

$patterns[0] = "//"; $patterns[1] = "//"; $replacements[0] = ""; $replacements[1] = ""; $content= preg_replace($patterns, $replacements, $string);

должны исчезнуть.

спасибо, но интересует такая вещь как скорость обработки - скажется ли это на ней. таких строк порядка 500

rooot · 16 Июн 2005

mac
$content= preg_replace($patterns, $replacements, $string);
по моему все дело в ней, а она одна)))))))))

sage · 16 Июн 2005

mac
не делай так, как посоветовал rooot

вот, например, одно из решений:

Код:

~<a class=n href="(.+?)">(?:.*?<b>)?(.+?)(?:<\/b>)?<\/a>~si

-~{}~ 16.06.05 23:30:

без пробелов после b>

mac · 16 Июн 2005

это точно )))))
спасибо, буду пробовать..

-~{}~ 16.06.05 16:45:

Код:
Автор оригинала: sage
mac
не делай так, как посоветовал rooot

вот, например, одно из решений:

Код:

~<a class=n href="(.+?)">(?:.*?)?(.+?)(?:<\/b>)?<\/a>~si

-~{}~ 16.06.05 23:30:

без пробелов после b>

в твоем примере отлавливаются только строки, в которых содержится - но попробую немного модифицировать его....

Alex2003 · 16 Июн 2005

Автор оригинала: mac
это точно )))))
спасибо, буду пробовать..

-~{}~ 16.06.05 16:45:

в твоем примере отлавливаются только строки, в которых содержится - но попробую немного модифицировать его....

может эта...

PHP:

str_replace();
'<b>' => ''
'</b>' =>''
&nbsp; => ''
и потом preg_match_all();

?

kvf77 · 16 Июн 2005

mac

Ну по простому, можно сначала выкинуть все теги кроме <a> из файла, а потом парсить. В PHP есть для этого функция strip_tags (Эта функция возвращает строку str, из которой удалены HTML и PHP тэги):
strip_tags('text', '<a>');
После отработки все теги ктоме <a> исчезнут, а остальное ты умеешь обрабатывать.

sage · 17 Июн 2005

mac

Код:

#<a class=n href="(.+?)">(?:.*?<b>|(?:nbsp;)+)?(.+?)(?:<\/b>)?<\/a>#si

-~{}~ 17.06.05 08:24:

вместо смайлика - точка с запятой и )
без пробела после <\/b>

mac · 17 Июн 2005

Автор оригинала: kvf77
mac

Ну по простому, можно сначала выкинуть все теги кроме <a> из файла, а потом парсить. В PHP есть для этого функция strip_tags (Эта функция возвращает строку str, из которой удалены HTML и PHP тэги):
strip_tags('text', '<a>');
После отработки все теги ктоме <a> исчезнут, а остальное ты умеешь обрабатывать.

скорее всего так и поступлю, спасибо...

sage · 17 Июн 2005

mac
а зачем тебе лишняя операция?

mac · 17 Июн 2005

Код:
Автор оригинала: sage
mac

Код:

#<a class=n href="(.+?)">(?:.*?|(?:nbsp;)+)?(.+?)(?:<\/b>)?<\/a>#si

-~{}~ 17.06.05 08:24:

вместо смайлика - точка с запятой и )
без пробела после <\/b>

вылавливает только первый символ "текста ссылки",
может у меня просто настройки другие - поковыряю...
все равно спасибо

sage · 17 Июн 2005

приведи код, при котором вылавливает только первый символ "текста ссылки" - исправим

preg_match_all - помогите разобраться

mac

Guest

Новичок

П..и.н..ок

mac

Guest

Новичок

mac

Guest

Новичок->продвинутый

mac

Guest

Новичок

mac

Guest

Новичок

Новичок

mac

Guest

Новичок

Red Devil

Новичок

mac

Guest

Новичок

mac

Guest

Новичок