Злостный офф.

Духовность™

Продвинутый новичок
Злостный офф.

Тут на форуме часто проскакивают темы в стиле "как вытащить содержимое с сайта". Мол, у меня нет доступа к сайту, а нужно контент взять и парсить. И все удивляются, как же так - если у тебя нет доступа к сайту, к базе, значит ты воруешь контент?

Я в последние несколько дней занимаюсь тем, что через сервис гугл "мне повезёт" отлавливаю страницы сайта одной фирмы, очень известной во всем мире, вытаскиваю гуглёвский Location, иду по этой ссылке и собираю страницы с сайта фирмы. После этого пишу тонну регулярных выражений для формирования кривой отчетной таблицы.

А всё почему? А потому, что кругом сидят идиоты. Они везде. В той самой известной фирме, в русском филиале, сидят идиоты, которые заказывают у стороннего предприятия (у нас) комплекс услуг под названием "вырежьте гланды через задницу". Вместо того, что бы направить техзадание на SQL-выборку к разработчикам сайта, имеющим ДОСТУП к СУБД, они просят стороннее предприятие вручную составить список товаров и их различных характеристик из тысячи наименований. Вручную! Без доступа к базе. Доступ к базе не дают, объясняя это "политикой безопасности".

Вот так. А вы говорите...
 

флоппик

promotor fidei
Команда форума
Партнер клуба
Вот так. А вы говорите...
Ты думаешь, это высокоморалисты на форуме что-ли? Это как раз борьба с идиотами.
Которые для каждого своего посетителя заново тянут чей-то сайт(а иногда - твой собственный) и парсят его.
И прочие которые тоже.
 

Kirill

Новичок
можно вместо регулярок прогонять html через tidy, затем перегнать в xml, затем полученный xml загнать в simplexml - с ним намного проще и быстрее работать, нежели регулярки писать.
 
Сверху