pcre грабинг

knight

Новичок
pcre грабинг

Добрый дней

есть rss

и ругулярка для грабинга статей с этого рсс
PHP:
@
id="main">.+?
<h1\sclass="headline">(?<title>.+?)</h1>.+?
(?:<[^<]*?id="bodyText"[^>]*?>)
  (?<text>.+?)
(?:<[^<]*?id="article_footer"[^>]*?>)
@isxu
проблема в том что с некоторых постов данная регулярка не забирает текст, хотя структура страниц практически одинакова, например этот http://www.iht.com/articles/2008/09/05/business/soft.php

в чем может быть загвоздка? зарание благодарен за ответ
 

Фанат

oncle terrible
Команда форума
возьми программу regex buddy или любой онлайн отладчик регулярок, возьми текст, который "не забирается", и разберись.
не надо думать, что кто-то будет это делать за тебя
 

jonjonson

Охренеть
Самое интересное, что слово грабинг стал вполне естественным...
 

unlex

Новичок
У меня возникала подобная же кстати проблема. Некорректно выдирались спец символы различных алфавитов, французские e с ударением к примеру и так далее. Вся загвоздка в кодировках, хотя регулярки писались с учетом UTF-8 да и текст исходный тоже в ютф был. Задача тогда перестала быть актуальной и я так и не разобрался до конца. Хотя было бы интересно знать в чем тут собака зарыта.
 
Сверху