Jons
Новичок
Парсинг чужих сайтов во имя добра)
Думаю над решением следующей задач:
Пишем мы тут великий и ужасный сервис для вебмастеров...Есть некоторые задачи решения которых мы либо не знаем, либо не уверены в их оптимальности, итак...
Задача 1
Человек вводит адрес своего сайта и нам нужно выдать "карту его сайта" для дальнейших действий.
Вопрос собственно в том как лучше эту самую карту чужого сайта можно сформировать в случае если у человека нет специализированных xml или еще каких-либо видов правильной карты сайта?
Топорное решение "в лоб" парсим страничку, ищем все <a href="{user_server}"> и так до тех пор пока... Но ведь очевидно что таким образом мы сможем пропарсить скажем 10-100-1000 страничный сайт... А как быть с гигантами? Да и к тому же сервису по идее нужно знать только о самых "главных" разделах вводимого сайта, то есть можно сократить задачу например до нахождения всех ^userdomain.ru/(.*)/$
Задача 2
Собственно работа со страницами пользовательских сайтов. Необходимо на странице искать совпадение по N регулярных выражений и N точных совпадений. Как это оптимально сделать и какие могут быть подводные камни?
Задача 3
Мониторинг аптайма сайтов. Каким образом лучше реализовать? Чем плохо если делать это pingом из операционной системы?
Скажем как лучше проверять ежеминутно 100 сайтов на предмет их доступности?
Any ideas? Надеюсь выразил мысли ясно
Думаю над решением следующей задач:
Пишем мы тут великий и ужасный сервис для вебмастеров...Есть некоторые задачи решения которых мы либо не знаем, либо не уверены в их оптимальности, итак...
Задача 1
Человек вводит адрес своего сайта и нам нужно выдать "карту его сайта" для дальнейших действий.
Вопрос собственно в том как лучше эту самую карту чужого сайта можно сформировать в случае если у человека нет специализированных xml или еще каких-либо видов правильной карты сайта?
Топорное решение "в лоб" парсим страничку, ищем все <a href="{user_server}"> и так до тех пор пока... Но ведь очевидно что таким образом мы сможем пропарсить скажем 10-100-1000 страничный сайт... А как быть с гигантами? Да и к тому же сервису по идее нужно знать только о самых "главных" разделах вводимого сайта, то есть можно сократить задачу например до нахождения всех ^userdomain.ru/(.*)/$
Задача 2
Собственно работа со страницами пользовательских сайтов. Необходимо на странице искать совпадение по N регулярных выражений и N точных совпадений. Как это оптимально сделать и какие могут быть подводные камни?
Задача 3
Мониторинг аптайма сайтов. Каким образом лучше реализовать? Чем плохо если делать это pingом из операционной системы?
Скажем как лучше проверять ежеминутно 100 сайтов на предмет их доступности?
Any ideas? Надеюсь выразил мысли ясно
