парсер по вырезанию однотипного кода из 400Мб html файлов

piton · 29 Ноя 2005

парсер по вырезанию однотипного кода из 400Мб html файлов

Договорился с владельцами нескольких сайтов о зеркалировании их проектов внутри своей локальной сети. Для зеркалирования использую httrack под linux, но для корректной работы мечтается обработать все внешние ссылки для работы их через редирект (т.е. ткнул пользователь в линк, его перебросило на страничку уведомления что он пошел наружу) и + вырезание баннеров и кнопок. Как отпарсивать страничку, я на примере реализации своего анализатора лог-файла ftp сервера разобрался более менее.
Т.е. с момента когда можно сделать
$fd=fopen($myfile,"r");
дальше я уже разберусь, а вот не могли бы подсказать как мне получить листинг всех файлов, из папок и т.п. для использования? Попытки решить это на основании прочтения факов успехом почему-то не увенчались.

asm · 29 Ноя 2005

phprus · 29 Ноя 2005

Я думаю функция [m]glob[/m] будет в данном случае удобнее.

парсер по вырезанию однотипного кода из 400Мб html файлов

piton

Новичок

asm

Пофигист

phprus

Moderator