Я делаю чучуть попроще.
http://search.yaca.yandex.ru/yca/cy/ch/ALLWEBZ.RU
но РНР для больших обьёмов не подходит.
Больше 5 страниц не парсит.
Прийдётся писать программу на своем клиенте, которая будет постоянно парсить сайт, обращаться к моим скриптам на сервере и заполнять уже чистыми данными.
Спасибо.