pcre грабинг

knight · 6 Сен 2008

pcre грабинг

Добрый дней

есть rss

и ругулярка для грабинга статей с этого рсс

PHP:

@
id="main">.+?
<h1\sclass="headline">(?<title>.+?)</h1>.+?
(?:<[^<]*?id="bodyText"[^>]*?>)
  (?<text>.+?)
(?:<[^<]*?id="article_footer"[^>]*?>)
@isxu

проблема в том что с некоторых постов данная регулярка не забирает текст, хотя структура страниц практически одинакова, например этот http://www.iht.com/articles/2008/09/05/business/soft.php

в чем может быть загвоздка? зарание благодарен за ответ

Фанат · 6 Сен 2008

возьми программу regex buddy или любой онлайн отладчик регулярок, возьми текст, который "не забирается", и разберись.
не надо думать, что кто-то будет это делать за тебя

jonjonson · 6 Сен 2008

Самое интересное, что слово грабинг стал вполне естественным...

unlex · 6 Сен 2008

У меня возникала подобная же кстати проблема. Некорректно выдирались спец символы различных алфавитов, французские e с ударением к примеру и так далее. Вся загвоздка в кодировках, хотя регулярки писались с учетом UTF-8 да и текст исходный тоже в ютф был. Задача тогда перестала быть актуальной и я так и не разобрался до конца. Хотя было бы интересно знать в чем тут собака зарыта.

pcre грабинг

knight

Новичок

Фанат

oncle terrible

jonjonson

Охренеть

unlex

Новичок