Про систему сбора статистики

Mykola

Guest
Про систему сбора статистики

Можеш кто знает как различать роботов и настоящих посетителей в системе сбора статистики. Потому что если делать "влоб", то надо анализировать многие поля. Может ест какой нибудь общий критерий?
 

Alexandre

PHPПенсионер
как различать роботов и настоящих посетителей
практически никак
USER-AGENT можно подделать

-~{}~ 30.12.04 15:32:

можно писать куку и анализировать через куки.
если в куки не пишется - то посещение записать в подозрительные на робот ;), т.е. анализировать расширенно.
 

untied

Сдвинутый новичок
Насколько я знаю, поисковые роботы не загружают картинок (для экономии времени). Поставь запуск скрипта статистики на загрузку картинки (как это сделано в SpyLog, HotLog и т.п.), и роботы не будут влиять на статистику.
Если требуется именно найти посещения роботов -- то никак. Разве что долго анализируя логи в поисках посетителей, которые смотрели страницы, но не грузили картинки. :D
 

Фанат

oncle terrible
Команда форума
роботы запрашивают robots.txt
однако, естественно, что проверочные пауки, которые ловят таких, как ты за руку на спуфинге, ничем от браузера не отличаются и поймать их в принципе невозможно.

Говорят, паук яндекса поддерживает куки.
Специально, чтобы индексировать сайты криворуких мастеров, делающих навигацию на сессиях.
 

Фанат

oncle terrible
Команда форума
Насколько я знаю, поисковые роботы не загружают картинок
интересно - откуда картинки берут http://images.google.ru/ и http://images.yandex.ru/
Наверное, сами рисуют.

С картинками идея хорошая
шикарная.
все гпрсники - роботы. Я давно это подозревал

А, главное, когда у нас запрашивают страницу, мы уже знаем, запросят с нее картинки, или нет. Телепатическим путем, наверное
 

Mykola

Guest
Я имел ввиду, как отсеять большую часть роботов, если нельзя всех. А гпрсников не так много чтобы они сильно влияли на статистику. Если тебе идея с картинками не нравится то продложи что-нибудь лучше!
 

SiMM

Новичок
Автор оригинала: Mykola
А гпрсников не так много чтобы они сильно влияли на статистику.
Можно подумать, все диалаперы грузят графику без видимой необходимости. Или выделенщики ;)
 

Фанат

oncle terrible
Команда форума
все системы статистики отсеивают роботов по юзер-агенту.
это очевидно.
пополнять список можно автомтически, теми агентами, которые запрашивают robots.txt
 

Mykola

Guest
Originally posted by Фанат
все системы статистики отсеивают роботов по юзер-агенту.
Я так и сделал, анализировал $HTTP_USER_AGENT но пополнял список вручную анализируя UAgent уже имеющихся посетителей.

пополнять список можно автомтически, теми агентами, которые запрашивают robots.txt
Ну а как тогда узнать запрашивал ли он robots.txt или нет?
 

Фанат

oncle terrible
Команда форума
поправь меня, если я ошибаюсь.
ты пишешь систему статистики, но при этом не знаешь, как узнать, запрашивал ли клиент тот или иной файл?
 

Mykola

Guest
Originally posted by Фанат
поправь меня, если я ошибаюсь.
ты пишешь систему статистики, но при этом не знаешь, как узнать, запрашивал ли клиент тот или иной файл?
Тот или иной файл сайта ето одно. Но разве в Request_URI или HTTP_REFERER и тд. будет отмечено robots.txt?

какой нибудь другой способ мне пока не приходит.
 

Фанат

oncle terrible
Команда форума
как это одно? при чем здесь реферер или ури?
вот, допустим, у тебя на сайте картинка. на нее все ставят прямой линк и передают друг другу по аське.
твоя система статистики этот факт как-то отслеживает?
 

Mykola

Guest
допустим, у тебя на сайте картинка. на нее все ставят прямой линк и передают друг другу по аське.
твоя система статистики этот факт как-то отслеживает?
Нет. А должна. Если должна то зачем?
 

Фанат

oncle terrible
Команда форума
Ты у меня спрашиваешь - зачем тебе статистика обращения к ресурсам сайта?
 

Mykola

Guest
Ну можно конечно анализировать логи сервера и проверять какой ip запрашивал robots.txt но ето не очень приятное занятие. Если ты знаеш другой способ то подскажи!
 

Фанат

oncle terrible
Команда форума
логи - это самый простой способ.
но еще можно добавить расширение тхт в обработчик пхп.
можно отлавливать обрашения к роботс.тхт реврайтом.
 

Mykola

Guest
Ты у меня спрашиваешь - зачем тебе статистика обращения к ресурсам сайта?
Ну я что-то не припомню чтоби SpyLog или HotLog такую статистику предоставляют. Или я ошибаюсь?
 
Сверху