определение различия html-страниц

zaartix · 12 Фев 2009

определение различия html-страниц

Пишется индексатор страниц.

Сначала грузим текст самого урла (ну в смысле загружаем страницу), потом дописываем к урлу '?'.rand(); и снова получаем текст страницы.
В итоге получаем 2 одинаковые страницы, если второй вариант отличается от первого, все различия просто выдираются. Это делается для того, чтобы всякие сапы и прочий динамический контент не индексировать.

Собственно есть 2 задачи, чисто проиндексировать страницы и попытаться определить html-шаблон страниц (не только для игнора при индексации, но еще и для генерации некоторых страниц, используя этот шаблон).

Сама индексация понятна, а вот вопросы:

1. как определить различия в html страниц? для того, чтобы эти отличия выдрать и оставить то, что одинаково.
2. как только наберется пяток разных страниц, очищенных от динамического контента, нужно выделить их шаблон. Тут тоже не совсем ясно что делать.

p.s. не прошу готового кода

-~{}~ 12.02.09 12:19:

или надо это было постить в теорию?

Фанат · 12 Фев 2009

прикроют, я думаю.

zaartix · 12 Фев 2009

это вы о чем?

-~{}~ 12.02.09 12:43:

добрый человек подкинул ссылку на хороший примерчик по теме:
http://www.easywebscripts.net/php/php_text_differences.php

Фанат · 12 Фев 2009

о теме.

phprus · 12 Фев 2009

*****
Почему? Тема вроде правил форума не нарушает, под воровство контента, я думаю, не подводимая, а задача так-то интересная. И я думаю, что интересная не только автору темы.

zaartix
Почитай этот блог - http://ivbeg.livejournal.com/
и эту запись http://ivbeg.livejournal.com/191968.html

Фанат · 12 Фев 2009

я чисто из опыта. обычно закрывают.

phprus · 12 Фев 2009

*****
А может эту тему в теорию перенести? ИМХО это будет для нее более подходящим разделом.

Ссылка по теме http://company.yandex.ru/public/ там есть обзорные статьи на тему поиска нечетких дублей.

zaartix · 16 Фев 2009

Автор оригинала: phprus
*****
Почему? Тема вроде правил форума не нарушает, под воровство контента, я думаю, не подводимая, а задача так-то интересная. И я думаю, что интересная не только автору темы.

zaartix
Почитай этот блог - http://ivbeg.livejournal.com/
и эту запись http://ivbeg.livejournal.com/191968.html

спасибо за ссылку.

да, это не граббер, а именно индексатор. Хотя согласен, что близкие темы

-~{}~ 16.02.09 15:39:

Автор оригинала: phprus
*****
А может эту тему в теорию перенести? ИМХО это будет для нее более подходящим разделом.

Ссылка по теме http://company.yandex.ru/public/ там есть обзорные статьи на тему поиска нечетких дублей.

спасибо за ссылку, тоже занятные вещи.

насчет теории согласен.

определение различия html-страниц

zaartix

Новичок

Фанат

oncle terrible

zaartix

Новичок

Фанат

oncle terrible

phprus

Moderator

Фанат

oncle terrible

phprus

Moderator

zaartix

Новичок