WP
^_^
Индексация страниц, выделение значимой части.
Робот который обрабатывает страницы должен сохранить текст страницы в базу для дальнейшего поиска по ней. Встал вопрос об очистке HTML-кода. На данных момент он подвергается следующей обработке:
Дело в том что многое не нужно записывать, например показания счетчика посещений, и т.д. Возникла идея заключать значимую часть (ссылки, тексты статей, и т.д.) в специальный парный тэг, и сохранять только то что внутри него.
Какой способ лучше? Спасибо.
Робот который обрабатывает страницы должен сохранить текст страницы в базу для дальнейшего поиска по ней. Встал вопрос об очистке HTML-кода. На данных момент он подвергается следующей обработке:
PHP:
$text = preg_replace('~<style[^>]*>.*?</style>~si','',$text);
$text = preg_replace('~<script[^>]*>.*?</script>~si','',$text);
$text = preg_replace('~<select[^>]*>.*?</select>~si','',$text);
$text = str_replace('~ ~',' ',$text);
$text = strip_tags($text,'<a>');
Какой способ лучше? Спасибо.
