определение различия html-страниц

zaartix

Новичок
определение различия html-страниц

Пишется индексатор страниц.

Сначала грузим текст самого урла (ну в смысле загружаем страницу), потом дописываем к урлу '?'.rand(); и снова получаем текст страницы.
В итоге получаем 2 одинаковые страницы, если второй вариант отличается от первого, все различия просто выдираются. Это делается для того, чтобы всякие сапы и прочий динамический контент не индексировать.

Собственно есть 2 задачи, чисто проиндексировать страницы и попытаться определить html-шаблон страниц (не только для игнора при индексации, но еще и для генерации некоторых страниц, используя этот шаблон).

Сама индексация понятна, а вот вопросы:

1. как определить различия в html страниц? для того, чтобы эти отличия выдрать и оставить то, что одинаково.
2. как только наберется пяток разных страниц, очищенных от динамического контента, нужно выделить их шаблон. Тут тоже не совсем ясно что делать.

p.s. не прошу готового кода

-~{}~ 12.02.09 12:19:

или надо это было постить в теорию?
 

zaartix

Новичок
это вы о чем?

-~{}~ 12.02.09 12:43:

добрый человек подкинул ссылку на хороший примерчик по теме:
http://www.easywebscripts.net/php/php_text_differences.php
 

phprus

Moderator
Команда форума
*****
Почему? Тема вроде правил форума не нарушает, под воровство контента, я думаю, не подводимая, а задача так-то интересная. И я думаю, что интересная не только автору темы.

zaartix
Почитай этот блог - http://ivbeg.livejournal.com/
и эту запись http://ivbeg.livejournal.com/191968.html
 

phprus

Moderator
Команда форума
*****
А может эту тему в теорию перенести? ИМХО это будет для нее более подходящим разделом.

Ссылка по теме http://company.yandex.ru/public/ там есть обзорные статьи на тему поиска нечетких дублей.
 

zaartix

Новичок
Автор оригинала: phprus
*****
Почему? Тема вроде правил форума не нарушает, под воровство контента, я думаю, не подводимая, а задача так-то интересная. И я думаю, что интересная не только автору темы.

zaartix
Почитай этот блог - http://ivbeg.livejournal.com/
и эту запись http://ivbeg.livejournal.com/191968.html
спасибо за ссылку.

да, это не граббер, а именно индексатор. Хотя согласен, что близкие темы

-~{}~ 16.02.09 15:39:

Автор оригинала: phprus
*****
А может эту тему в теорию перенести? ИМХО это будет для нее более подходящим разделом.

Ссылка по теме http://company.yandex.ru/public/ там есть обзорные статьи на тему поиска нечетких дублей.
спасибо за ссылку, тоже занятные вещи.

насчет теории согласен.
 
Сверху