Поисковые боты: временно не индексировать

dzimedrol

Новичок
Поисковые боты: временно не индексировать

Есть необходимость попросить бота временно не индексировать некоторые динамические страницы. Как это лучше сделать?
Были варианты:

1.тэг META NAME="robots" и NOINDEX - боюсь даже когда я тэг убиру робот на такую страницу больше не зайдет (не уверен).
2.HTTP заголовок Not Modified - не подошел, поскольку в этом случае в браузере страница не показывается, хоть скрипт ее и отсылает после заголовка.

Какие будут варианты?
 

dzimedrol

Новичок
robots.txt не подходит, поскольку таких страниц ОЧЕНЬ много. Объясню.

Есть нечно типа новостей, разложенных по каталогу в виде
site.ru/news/2005/11/03/
в некоторых датах есть новости, в других же новостей нет, но есть форма для их добавления. По ссылкам с главной страницы можно добраться до любой даты. Так вот выходит что бот проиндексирует целую кучу одинаковых страниц с одной лишь формой для добавления новости. Понятно, что robots.txt тут плохой помошник.
Допускаю, что в моем случае нормального решения вообще нет. Но я не могу отказаться от ссылок на пустые дни, поскольку обязательно нужно, чтобы на любую дату можно было попасть набрав site.ru/news/<дата>
 

Dor

Новичок
А почему бы и robots.txt не формировать в этом случае динамически?
 

asm

Пофигист
размещай ссылки только на непустые страницы :))) решатся все твои проблемы
 

dzimedrol

Новичок
Dor
Потому что туда придется вписывать не менее 1000 страниц, а для обработки сего чуда придется писать код, на подобии движка для БД. Не знаю, что-то мне этот метод кажется кривым.

asm
Ссылки не давать на такие страницы, к сожалению, невозможно.
 

Dor

Новичок
dzimedrol
...а, если... ссылки ведь у тебя и так динамически формируются, сделай ссылку на страницу где нет новостей замудреную - через JS. Насколько я знаю, боты их не понимают.
Или покажи ссылку как рекламную rel="nofollow", боты по таким не должны вроде ходить и учитывать их

А скрипт не думаю, что будет большой -
Один раз:
1. Составить массив существующих страниц новостей
2. Найти по базе, где нет новостей
3. Дописать в robots или меню
Потом:
При добавлении страницы или новости делать соответствующее изменение

Только я не знаю, насколько для бота критична величина этого файла
 

dzimedrol

Новичок
Думаю, rel="nofollow" - стоит попробовать. Главное чтобы бот не забил на такие линки навсегда.

-~{}~ 20.01.06 10:47:

Интересно, а яндекс-бот понимает этот параметр?

-~{}~ 24.01.06 11:38:

Короче, как показала практика и Гугл и Яндекс во всю шуруют по линкам с nofollow, хоть их и не индексируют. Подозреваю, что это сказывается на числе проиндексированных страниц, поскольку квота числа линков на сайт точно присутствует.
 

Юзер

Новичок
Главное чтобы бот не забил на такие линки навсегда
не забьет, просто при составлении PR страницы, на которой находится ссылка с rel="nofollow", эта ссылка учитываться не будет!!! Но если кто-то другой даст ссылку на ту страницу которую ты хочешь скрыть от поисковика... то у тебя ничего не получится - страница будет видна.. в этом случае нажно либо в robots.txt запретить либо META.
Интересно, а яндекс-бот понимает этот параметр?
а чё бы эму не понимать?!
как показала практика и Гугл и Яндекс во всю шуруют по линкам с nofollow, хоть их и не индексируют
Полный бред!!! Почитай про ссылочное ранжирование.
поскольку квота числа линков на сайт точно присутствует
)) это даже комментировать не буду
 

dzimedrol

Новичок
Я по логам вижу, что Яндекс во всю ходит по линкам с аттрибутом rel='nofollow'. Только и всего. Он наматывает полсотни таких ходок и сваливает, проиндексировав меньше трети полезного контента.
 

Юзер

Новичок
ты можешь определиться?! то ты говоришь что "хоть их и не индексируют", а потом говоришь "проиндексировав меньше трети полезного контента"..
Из этого следует, что ты не понимаешь, что такое индексация поисковой системой..

Не нужно создавать велосипед.. Ответ на твой вопрос, написан тобою же в первом варианте. Это использование "1.тэг META NAME="robots" и NOINDEX"
 

dzimedrol

Новичок
Возможно я спутал термины, под индексацией я понимал занесение страниц в БД яндекса, то есть эти страницы можно найти поисковиком (сразу после занесения или чуть позже).
 
Сверху