Freetz
Guest
Вытаскивание всех ссылок при анализе HTML
Здравствуйте.
Предо мной стоит задача, проанализировав html-код узнать все ссылки на другие страницы этого сайта. Теперь конкретней.
Пусть в $adress у меня содержится название (url сайта). Для отыскания ссылок на другие страницы надо составить регулярное выражение:
/$adress\/+\w\/\.html|htm|php|shtml/
Мои вопросы: во-первых, как сделать чтобы $adress интерпретировалось именно как значение переменной, а не как символ конца строки и букв, составляющих слово address. Во-вторых, далее у меня идет +\w – любое количество (больше 1) вхождений словесных символов. Проблема в том, что в этом случае мне выведется вхождения только одного, самомго первого символа. Но ведь вместо этого мне надо фактически записать «любое количество любых символов», т.е. получить URI. Как сделать это?
Заранее спасибо за ответ.
Здравствуйте.
Предо мной стоит задача, проанализировав html-код узнать все ссылки на другие страницы этого сайта. Теперь конкретней.
Пусть в $adress у меня содержится название (url сайта). Для отыскания ссылок на другие страницы надо составить регулярное выражение:
/$adress\/+\w\/\.html|htm|php|shtml/
Мои вопросы: во-первых, как сделать чтобы $adress интерпретировалось именно как значение переменной, а не как символ конца строки и букв, составляющих слово address. Во-вторых, далее у меня идет +\w – любое количество (больше 1) вхождений словесных символов. Проблема в том, что в этом случае мне выведется вхождения только одного, самомго первого символа. Но ведь вместо этого мне надо фактически записать «любое количество любых символов», т.е. получить URI. Как сделать это?
Заранее спасибо за ответ.