Генерация sitemap

igorpromen2009

Новичок
Ребята, всем привет! Задумался над созданием нового генератора sitemap для своего сайта. Раньше парсил регулярками до трех,четырех уровней вложенности страниц, потом уникализировал полученный результат, но сейчас задумался о том, что несколько разных ссылок (с главной, с категорий, сам товар) ведут на очень похожий контент (title,meta,h1-ы, да и часть контента вообще одинаковы). В связи с чем возникает следующий вопрос:
генерить ссылки на
1) отдельные страницы с товаром;
2) главную и другую статику;
3) на первую страницу отдельной категории?
или
1),2),
3) на все страницы отдельной категории

Если есть мнения на этот счет, делитесь! Спасибо.
 

igorpromen2009

Новичок
Спасибо за дельный совет, обязательно воспользуюсь. Но вопрос пока остается. Как лучше и правильно с точки зрения логики алгоритма создавать sitemap.xml
 

hell0w0rd

Продвинутый новичок
Спасибо за дельный совет, обязательно воспользуюсь. Но вопрос пока остается. Как лучше и правильно с точки зрения логики алгоритма создавать sitemap.xml
А в чем проблема? Если вам необходимо выгрузить каталог товаров - собственно выгружаете каталог товаров. То есть из БД берете все что нужно и формируете xml.
Я так понимаю вы грузите свой же сайт и его индексируете? С моей точки зрения, могу ошибаться, это совсем не разумно. Фактически если у ваc n товаров, то вы тратите в n раз больше времени и ресурсов на создание этого дерева. Но если уж так делать - то я бы парсил не регулярками, а загружал страничку в дом-дерево и отбирал бы ссылки, что фактически делает поисковик.
 

igorpromen2009

Новичок
Спасибо, конечно парсить свой же сайт это неправильно. Генерация из бд - подход наверняка наилучший! С этим все ясно. Хотелось бы прояснить вот что, т.е. Вы считаете что если поместить ссылку на страницу некоторой выбранной категории (с товарами) в сайтмэп, а потом ссылку например на "акции магазина" (с теми же товарами) тоже в сайтмэп -- это нормально? не будет ли это считаться дублированием контента? Вот в чем загвоздка!
 

igorpromen2009

Новичок
Или же забить на это, а поисковик сам решит, добавлять в индекс или нет. Хотя с дублированным контентом обычно дело обстоит так что "ни тому ни другому", или я не прав?
 

hell0w0rd

Продвинутый новичок
Спасибо, конечно парсить свой же сайт это неправильно. Генерация из бд - подход наверняка наилучший! С этим все ясно. Хотелось бы прояснить вот что, т.е. Вы считаете что если поместить ссылку на страницу некоторой выбранной категории (с товарами) в сайтмэп, а потом ссылку например на "акции магазина" (с теми же товарами) тоже в сайтмэп -- это нормально? не будет ли это считаться дублированием контента? Вот в чем загвоздка!
sitemap, как мне кажется - не отражение всего вашего сайта вообще, а структура сайта, структура каталога товаров, если прочитаете требования яндекса - увидете тип ноды - sales_notes, вот как раз для описания акций, но не скидок.
Акция пройдет - а товар(как правило) останется.
 

igorpromen2009

Новичок
Подход ясен, Спасибо. Наверное буду генерировать из бд на:
1) статические ссылки;
2) категории (включая разбиение по страницам, чтобы путь был к каждой странице категории);
3) и конкретные позиции.
Все-таки, когда страница с ?page=n проиндексирована это лучше, чем просто /category, в котором есть разбиение по страницам, и до товара добраться можно либо щелкая по страницам, либо зная адрес конкретной позиции)) либо перейдя по ссылке (опять же из индекса) на конкретный товар. Как считаете? или просто структура, или + указание страниц для категории?
 

hell0w0rd

Продвинутый новичок
Да какая разница как я считаю?))
Вас индексировать будет яндекс, гугл, бинг и тд. Рускоязычные пользователи используют чаще яндекс, и уж тем более яндекс.маркет. Поэтому следует делать так, как они расписали. Я понимаю ерунду бы написали, но там вполне нормальные требования и документация подробно все описывает на великом и могучем.
sitemap - помощник поискового бота. Вы в нем указываете обновилась ли инфа - или нет. Если обновилась - бот в своих базах ее также обновляет. Если нет sitemap - боту нужно пройти весь сайт, прощелкать все ссылки - он это будет делать дольше, чем изучать вашу sitemap, и соотв реже заходить, чтоб наверняка нарваться на обновление.
 
Сверху