Счетчик: подсчет уникальных за период

PartizaneN

I speak PHP
А может писать все пути > 2 страниц... только данные хранить не вечно... top100.rambler.ru вообще некоторые данные 2 дня хранит... Так вот... хранить пути неделю или месяц...
 

Falc

Новичок
PartizaneN
>>А может писать все пути > 2 страниц... только данные хранить не вечно... top100.rambler.ru вообще некоторые данные 2 дня хранит... Так вот... хранить пути неделю или месяц...

Вот тебе еще варинат, пиши все пути, а при чистке удаляй Старые малопосещаемые пути
По поводу каротких путей, то лучше их хранить, так как места они мало занимают и их очень мало. Вообще при чистке лучше не разделять на короткие или длиные, чистить только опираясь на давность (дату последнего прохода по данному пути) и посещаемость.
 

valyala

Новичок
Ну так дополни сам мой вопрос! "вебмастер выбирает подсчет уникальных за 2 года", через 2 года сбора статистики. [= А если будешь вести лог по часам, а не по дням, то ... [=
В математике есть очень полезная штука, которая называется рекурсией. Допустим, у нас есть таблица counters_T, позволяющая считать уникальных посетителей с дискретностью по времени T. Из нее легко сформировать таблицу с кратной дискретностью T1 = n * T. Теперь замени T1 на T и прочти снова :) Поэтому, если тебе будет необходимо считать количество уникальных за 10 лет, начиная с 10 года от начала сбора статистики, вспомни про рекурсию.

p.s. Может, у тебя есть идеи получше, как можно быстрее подсчитать уникальных за период?
 

trigger

Guest
valyala
Из нее легко сформировать таблицу с кратной дискретностью T1 = n * T.
Смысл? Если у тебя дискретность -- день, то, разделив уники в день на 24, ты не получишь уники за каждый час отдельно.
p.s. Может, у тебя есть идеи получше, как можно быстрее подсчитать уникальных за период?
Нет. [=

Идей нету, есть мысли. Вероятностно. Например, твоя последняя мессага немного из этой оперы.
 

Uragan

Guest
Что вы тут паритесь? Коню понятно чтобы выдавать подробную статистику - ее надо также подробно хранить, хоть в одной таблице, хоть разносить по разным, можно оптимизировать по браузерам, ип и т.д. - суть та же - инфы хранится будет много!
Такая подробная статистика нах никому не нужна, за день уников считать все что надо вебмастерам. Если чел заходил сегодня и месяц назад - то он уже все равно все забыл - это уник будет полюбе.
У меня такой учет:
храню подробную статсу за 48 часов, остальное по дням длиной в неделю, все что позже недели заносится в тотал - этого нормальным мастерам вполне достаточно.
Все хранятся чисто в мускуле, траф 40к день, получается 4 запроса пер сек. Все летает и учет и отображение статсов, т.к. не большое число записей.
Эксперементально проверялось - если хранить инфу подробную например недлею - то запрос на отображения статистики просто ложит сервак - т.к. оч много параметров группировки реферер, браузер, старана, ип и тд
 

Falc

Новичок
Uragan
>>Такая подробная статистика нах никому не нужна, за день уников считать все что надо вебмастерам. Если чел заходил сегодня и месяц назад - то он уже все равно все забыл - это уник будет полюбе.
>>У меня такой учет:
>>храню подробную статсу за 48 часов, остальное по дням длиной в неделю, все что позже недели заносится в тотал - этого нормальным мастерам вполне достаточно.

1 Вопрос: Хоть 1 человек платит за такую статистику?
 

Zeratul

Guest
to Vinni: прочитал начало - прочитал окончание - ты проблему то решил?
Кстати, не понял
-----------------------------------------------------------------------------------
Пока моделька написана на php и на целеке 1.7 логается где-то по 200-300 запросов в секунду, а статистика разбирается со скоростью порядка 100-150 в секунду... Это на php, а будет написан демон на C...
-----------------------------------------------------------------------------------
Какое сейчас количество запросов в день (порядок)?
 

telesar1

Guest
Сорри, что вторгаюсь.
Прочитав топик, я сделал вывод, что:

1) Хранение подробной статистики позволяет генерить идеально верные отчеты, но требует больших ресурсов (особенно при длительном периоде ведения статистики).
2) Хранение сводных отчетов экономит ресурсы, но отчеты не отражают действительность.

В связи с этим мне кажется оптимальным вариант совместного использования подробной статистики и сводных отчетов.
За определенный период (к примеру два месяца) ведется подробная статистика. По истечении этого периода данные первого месяца отправляются в свод. отчет, а также по итогам первого и второго месяцев генерится коэффициент = (действительное число уник. посетителей) / (сумма уник. посетителей по дням).
То есть (см. пятый пост в этой теме) этот коэффициент будет, к примеру, равен 4/9. Таким же образом можно вычислить и другие необходимые коэфф-ты, необходимые для нашей статистики.
Далее, по итогам двух лет, происходит то же самое, и стат. данные за первый год + коэф-ты заносятся в свод. отчет за год.
Можно даже, загнавшись, вычислять не коэффициенты, а по итогам нескольких отчетных периодов (недель, а затем месяцев) строить функции, отражающие изменение интересующих нас параметров.
Таким образом, в итоге мы получаем:

1) Идеально верные отчеты за 2 месяца (или сколько мы там запланировали - зависит от физ. способностей оборудования, которым мы располагаем).
2) Быстро обрабатываемые отчеты за длительные сроки, не досконально точные, но верно отражающие тенденцию.
 

Bloody

Guest
есть такая фишка как логи апача, которые хранят ВСЮ инфу о посещениях. Если их пропарсить, вся необходимая информация у тебя будет...
 

Falc

Новичок
Bloody
Во первых не вся, например логи апача не могут ставить куки :)

telesar1
Ты немного перепутал сводные отчеты не уменьшают точность отчетов, они ограничивают подробность отчетов.

Например если у тебя есть сводная таблица посещений сайта по дням, то из нее ты не как не сможешь вытащить посещаемость сайта по часам. Или же если у тебя есть таблица посещаемости всего сайта, та не как не сможешь вытащить из нее посещаемость конкретной страницы сайта или группы страниц.
 

Bloody

Guest
Хм... А зачем тебе тут куки нужны? Тебе информация о посещениях нужна, или как... или что, вернее?
А если тебе куки нужны, можно в скрипте их проставлять... только IMHO почти никакой информации о посещениях они нести не могут (не должны)... Кроме того многие их просто отключают...
 

Falc

Новичок
Bloody
Насколько мне известно спайлог и хотлог уникалов по кукам считают. А для менеджеров это наиболее важная цыфра :)
 

telesar1

Guest
Автор оригинала: Falc
Например если у тебя есть сводная таблица посещений сайта по дням, то из нее ты не как не сможешь вытащить посещаемость сайта по часам.
Генери среднюю посещаемость по часам за данный период и заноси ее в сводную таблицу. Точная посещаемость по часам за период 10-летней давности IMHO никому не нужна. А вообще никто и не спорит, что иметь полные данные за за все время ведения статистики очень хорошо и удобно, но в реальной жизни это, как выяснилось, нереально (сорри за тафтологию).
 

Falc

Новичок
telesar1
>>Генери среднюю посещаемость по часам за данный период и заноси ее в сводную таблицу.

Если бы я был провидцем и знал, в какой момент и какая статистика клиенту может потребоватся я бы так и делал.

>>Точная посещаемость по часам за период 10-летней давности IMHO никому не нужна.
Это уже решать клиенту, что ему нужно, а что нет.

>>А вообще никто и не спорит, что иметь полные данные за за все время ведения статистики очень хорошо и удобно, но в реальной жизни это, как выяснилось, нереально (сорри за тафтологию).

Всегда надо искать компромис :)
 

Bloody

Guest
Falc
Ну во-первых, тебе надо как на спайлоге, или тебе надо сделать статистику...
Во вторых куки это совсем не панацея, т.к. их можно отключить...
В третьих, я тебе объяснил уже, если нужна статистику хостов - с этим уже успешно справляется апач - какие хочешь хосты такие из логов и выбирай - хочешь уникальные, хочешь - не уникальные...
 

telesar1

Guest
Falc

>>Точная посещаемость по часам за период 10-летней давности IMHO никому не нужна.
>Это уже решать клиенту, что ему нужно, а что нет.

Если клиент такой требовательный и на компромиссы не согласный, значит он очень богатый и готов оплатить хранение и обработку своих огромных данных. В таком случае проблема легко решается покупкой необходимого супер-мощного оборудования.
 

Falc

Новичок
Bloody
Чесно говоря не видел ни одной хорошей статистики, основоной на логах апача.
В то время как спалог предоставляет весьма не плохую статистику.
И потом если ты предлагаешь внешний сервис, который будет требовать чтобы пользователь подгружал логи апача, будет не очень хорошо. Так же скажу что получить ту статистику, которую собирает моя система просто не возможно из логов апача.

telesar1
Все зависит от позицианирования системы статистики, если собираешься раставить свой счетчик на всех сайтах рунет, это одно, если пару сотен комерчиских сайтов это другое.
 

Bloody

Guest
webalizer чем не нравится?

Ну, ежели так, делай на куках собственную статистику... Тогда в чем трабла?
 

Falc

Новичок
Bloody
У меня уже сделано, и траблов нет. Просто обсуждаю :)
 
Сверху