JOSS-PHP
Новичок
Регулярка для парсера
Вот с товарищем решили попробовать написать поисковик конкретно белорусских ресурсов с индексированием контента страниц, ранжированием, релевантностью и прочими премудростями(мини-яндекс что-ли )))).
Столкнулся со следующей проблемой: иногда кроме урла вытягиваются и другие атрибуты тега А.
как тут быть если возможен вариант что после атрибута href могут идти атрибуты class например.
пробовал написать /<a(.*) href=(.*) (.*)>(.*)<\/a>/isU ,но это не подходит так как не обязательно там должны идти еще аттрибуты.
посёрчил по форуму - ответа не нашел. все топики прикрыты с причиной "Взлом... и т.д.".
в гугле норм ничего не нашел.
п.с. просьба модераторов не закрывать темку. не препятствуйте зарождению мего-поисковика
Вот с товарищем решили попробовать написать поисковик конкретно белорусских ресурсов с индексированием контента страниц, ранжированием, релевантностью и прочими премудростями(мини-яндекс что-ли )))).
Столкнулся со следующей проблемой: иногда кроме урла вытягиваются и другие атрибуты тега А.
PHP:
$content = file_get_contents("http://remotvet.ru/");
$pattern = '/<a(.*) href=(.*)>(.*)<\/a>/isU';
preg_match_all($pattern, $content, $matches);
print_r($matches[2]);
пробовал написать /<a(.*) href=(.*) (.*)>(.*)<\/a>/isU ,но это не подходит так как не обязательно там должны идти еще аттрибуты.
посёрчил по форуму - ответа не нашел. все топики прикрыты с причиной "Взлом... и т.д.".
в гугле норм ничего не нашел.
п.с. просьба модераторов не закрывать темку. не препятствуйте зарождению мего-поисковика

мне до гугла как до неба пешком.