mp_petrol
Новичок
Помогите с xml дампом русской Википедии
Есть xml дамп русской Википедии. Структура его следующая:
Задача такова:
Нужно удалить всё от <page> до </page> (с тегами page в том числе), если <title> начинается с ключевых слов: Файл:, Изображение:, Mediawiki: и Википедия:
После этого надо скопировать значение из титла, преобразовать его в url код и вставить после <text xml:space="preserve">{{оригинал статьи|httр://ru.wikipedia.org/wiki/ ВОТ СЮДА }} Текст статьи с вики разметкой
чтобы имело вот такой вид:
<text xml:space="preserve">{{оригинал статьи|httр://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D0%BE%D0%BB%D0%BE%D0%B2%D0%BE%D0%BA }} Текст статьи с вики разметкой</text>
Помогите, ПОЖАЛУЙСТА! Программирование не знаю. А учить пхп ради одной задачи, нет времени.
Есть xml дамп русской Википедии. Структура его следующая:
PHP:
<page>
<title>Заголовок</title>
<id>380248</id>
<revision>
<id>2097005</id>
<timestamp>2008-12-16T14:07:23Z</timestamp>
<contributor>
<username>User</username>
<id>9835</id>
</contributor>
<minor />
<comment>Комментарий</comment>
<text xml:space="preserve">Текст статьи с вики разметкой</text>
</revision>
</page>
И так далее
Нужно удалить всё от <page> до </page> (с тегами page в том числе), если <title> начинается с ключевых слов: Файл:, Изображение:, Mediawiki: и Википедия:
После этого надо скопировать значение из титла, преобразовать его в url код и вставить после <text xml:space="preserve">{{оригинал статьи|httр://ru.wikipedia.org/wiki/ ВОТ СЮДА }} Текст статьи с вики разметкой
чтобы имело вот такой вид:
<text xml:space="preserve">{{оригинал статьи|httр://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%B3%D0%BE%D0%BB%D0%BE%D0%B2%D0%BE%D0%BA }} Текст статьи с вики разметкой</text>
Помогите, ПОЖАЛУЙСТА! Программирование не знаю. А учить пхп ради одной задачи, нет времени.