zaartix
Новичок
определение различия html-страниц
Пишется индексатор страниц.
Сначала грузим текст самого урла (ну в смысле загружаем страницу), потом дописываем к урлу '?'.rand(); и снова получаем текст страницы.
В итоге получаем 2 одинаковые страницы, если второй вариант отличается от первого, все различия просто выдираются. Это делается для того, чтобы всякие сапы и прочий динамический контент не индексировать.
Собственно есть 2 задачи, чисто проиндексировать страницы и попытаться определить html-шаблон страниц (не только для игнора при индексации, но еще и для генерации некоторых страниц, используя этот шаблон).
Сама индексация понятна, а вот вопросы:
1. как определить различия в html страниц? для того, чтобы эти отличия выдрать и оставить то, что одинаково.
2. как только наберется пяток разных страниц, очищенных от динамического контента, нужно выделить их шаблон. Тут тоже не совсем ясно что делать.
p.s. не прошу готового кода
-~{}~ 12.02.09 12:19:
или надо это было постить в теорию?
Пишется индексатор страниц.
Сначала грузим текст самого урла (ну в смысле загружаем страницу), потом дописываем к урлу '?'.rand(); и снова получаем текст страницы.
В итоге получаем 2 одинаковые страницы, если второй вариант отличается от первого, все различия просто выдираются. Это делается для того, чтобы всякие сапы и прочий динамический контент не индексировать.
Собственно есть 2 задачи, чисто проиндексировать страницы и попытаться определить html-шаблон страниц (не только для игнора при индексации, но еще и для генерации некоторых страниц, используя этот шаблон).
Сама индексация понятна, а вот вопросы:
1. как определить различия в html страниц? для того, чтобы эти отличия выдрать и оставить то, что одинаково.
2. как только наберется пяток разных страниц, очищенных от динамического контента, нужно выделить их шаблон. Тут тоже не совсем ясно что делать.
p.s. не прошу готового кода
-~{}~ 12.02.09 12:19:
или надо это было постить в теорию?