Представление данных мониторинга. Помогите советом?

grigori

( ͡° ͜ʖ ͡°)
Команда форума
Мне сегодня сказали, что тоже есть проблемы с доступностью в метрике - якобы каждый час сайт недоступен. Конечно, на графиках непрерывная нагрузка.
 

Активист

Активист
Команда форума
Мне сегодня сказали, что тоже есть проблемы с доступностью в метрике - якобы каждый час сайт недоступен. Конечно, на графиках непрерывная нагрузка.
А что значит не доступен? У меня даже локальный сервер на мониторинге метрики Яндекса падает раз в год, а в продакшене последнии года два ничего не изменилось. Вообще, СМС-ки от метрики достаточно же? За доп мониторинг оплачиваю ping-admin.ru, звонилка у них есть - звонит на телефон, говорит о проблемах, тестит со всей страны. Блеклисты првоеряю на mxtoolbox.com

А если не видит именно Яндекс - то бежать надо с таких хостингов - клиентов много, ботов мало, сиски настроены криво на лимиты per connection, могут резать по признакам syn/flood атаки .
 
Последнее редактирование:

grigori

( ͡° ͜ʖ ͡°)
Команда форума
А что значит не доступен? СМС-ки от метрики достаточно же?
А если не видит именно Яндекс - то бежать надо с таких хостингов - клиентов много, ботов мало, сиски настроены криво на лимиты per connection, могут резать по признакам syn/flood атаки .
Значит, что Метрика закидала СМС-ками о доступности-недоступности, штук 20 сегодня пришло.
Мультидоменное приложение, по разным доменам сбои в разное время, при том, что домен - просто входной параметр.

Я запустил проверку доступности сайта из дома и с сервера DigitalOcean
Код:
$ while true; do date=$(date +T|tr -d "\n"); curl -Ss -w "{http_code}|%{time_total}|%{size_download}|$date\n" -o /dev/null www.sdam74.ru >> sdam74.log 2>&1; done
Например, в 15:22 Мск по мнению Метрики сайт лежал, а вот здесь лог http://www.sdaminfo.ru/files/triolan-sdam74.txt
в 14:22 (Украина -1 час) сайт не то что не лежал, даже не подтормаживал.
С сервера DO все то же самое, только запрос отрабатывает за 0.1-0.2 вместо 0.5
Трафик на сайте не изменился, по России клиентам сайт доступен.

Бежать с Linode - отличная идея, но куда? Это проблемы каналов Метрики, и как предсказать где их не будет?
Видимо, надо устроить тестирование хостингов, закатать десяток страничек, включить метрику, и проверять.

Господа, кто хочет поучаствовать в проверке связи Яндекс-метрики со своим сервером? Нужны сервера в разных ДЦ, по результатам напишу статью.
 
Последнее редактирование:

fixxxer

К.О.
Партнер клуба
Если морочиться, имеет смысл проверять с пары-тройки точек с прямым подключением к MSK-IX.
Если оттуда все хорошо, а у яндекса каналы валятся - тут уж ничего не поделаешь все равно.
 

grigori

( ͡° ͜ʖ ͡°)
Команда форума
@fixxxer, к сожалению, у меня нет серверов в MSK-IX, но если бы их найти - я бы сделал, тест несложный

как минимум, можно ткнуть поддержку Яндекса носом, выложить аналитику на хабре

при сбое слетают кампании в директе, так что это их прямая потеря выручки, и рано или поздно это дойдет до кого-то, кроме девочки в саппорте
 

Активист

Активист
Команда форума
Значит, что Метрика закидала СМС-ками о доступности-недоступности, штук 20 сегодня пришло.
Мультидоменное приложение, по разным доменам сбои в разное время, при том, что домен - просто входной параметр.

Я запустил проверку доступности сайта из дома и с сервера DigitalOcean
Код:
$ while true; do date=$(date +T|tr -d "\n"); curl -Ss -w "{http_code}|%{time_total}|%{size_download}|$date\n" -o /dev/null www.sdam74.ru >> sdam74.log 2>&1; done
Например, в 15:22 Мск по мнению Метрики сайт лежал, а вот здесь лог http://www.sdaminfo.ru/files/triolan-sdam74.txt
в 14:22 (Украина -1 час) сайт не то что не лежал, даже не подтормаживал.
С сервера DO все то же самое, только запрос отрабатывает за 0.1-0.2 вместо 0.5
Трафик на сайте не изменился, по России клиентам сайт доступен.

Бежать с Linode - отличная идея, но куда? Это проблемы каналов Метрики, и как предсказать где их не будет?
Видимо, надо устроить тестирование хостингов, закатать десяток страничек, включить метрику, и проверять.

Господа, кто хочет поучаствовать в проверке связи Яндекс-метрики со своим сервером? Нужны сервера в разных ДЦ, по результатам напишу статью.
У меня сервера в infobox.ru, подобных проблем не было (один раз с Благовещенска у клиента траблы были) . Когда упадет, запусти проверку: http://ping-admin.ru/free_test/ , там огого сколько каналов. Там еще проблемы с лимитами на коннекты могут быть и т.п.

Вполне возможно, что проблема в самом приложении. В логах есть что?
 

grigori

( ͡° ͜ʖ ͡°)
Команда форума
@Активист, точно не приложение. Логи проверил. Все запросы, которые дошли от Яндекса - с кодами 200/30х. Все сбои - Connection timeout.
Сегодня Яндекс сбоев уже не видит.

>проблемы с лимитами на коннекты
ты про network settings на сервере?
Я оставил постоянные запросы курлом из другой страны, по логу со вчерашнего дня было 106282 запроса, и только два сбоя (время ответа >5 секунд), и только ночью при минимальном трафике.
Не похоже на перегрузку tcp-стека.
 
Последнее редактирование:

Активист

Активист
Команда форума
@Активист, точно не приложение. Логи проверил. Все запросы, которые дошли от Яндекса - с кодами 200/30х. Все сбои - Connection timeout.
Сегодня Яндекс сбоев уже не видит.
>проблемы с лимитами на коннекты
ты про network settings на сервере? это VPS, но можно попробовать проверить
Настраивают на цисках и серверах лимиты на коннекты / запросы. На хостере клиентов пипец, боты ходят активно, очень активно, айпишников у них мало, рубят ботов. У меня такая проблема была лет 6-ть назад, я после мощной флад атаки написал какое-то чудо правило на лимиты коннектов, сеошники чуть не убили, оказывается яндекс не мог долбиться, я его тупо реджектил за лимиты.
 

Активист

Активист
Команда форума
@Активист, точно не приложение. Логи проверил. Все запросы, которые дошли от Яндекса - с кодами 200/30х. Все сбои - Connection timeout.
Сегодня Яндекс сбоев уже не видит.

>проблемы с лимитами на коннекты
ты про network settings на сервере?
Я оставил постоянные запросы курлом из другой страны, по логу со вчерашнего дня было 106282 запроса, и только два сбоя (время ответа >5 секунд), и только ночью при минимальном трафике.
Не похоже на перегрузку tcp-стека.
Кстати, банально, апач может не принимать коннекты по тем же ограничениям. Вполне возможно, у тебя где-то большая рекурсия (зацикливание) из-за баги, поскольку бот порой может по таким урлам ходить, что людям и не снилось, а таймаут у ботов небольшой. Недождались ответа ушли. Кстати, в вебмастере есть отлов ошибок.
 

grigori

( ͡° ͜ʖ ͡°)
Команда форума
Nginx. Все ошибки - connection timeout. Насклько я помню, у метрики мониторинг доступности сайта по корню.
Вот была бы это ошибка приложения - вообще проблем бы не было.
Непрерывные 1.5 запроса в секунду в течение суток не рубятся вообще, ни единого разрыва (С).

Больше похоже, что где-то посередине какой-то роутер рубит боты Яндекса, как ты говоришь, за флуд.
 

Активист

Активист
Команда форума
Если iptables настроен на дроп по лимитам, нужно залогировать все дропы пакетов. Можно залогировать все входящие пакеты на 80 порт, а потом когда бот не достучиться, по обраткам смотреть in/out. Мунин стоит? Там LA, нагрузку, IO и другие лавины можно отслеживать. Кроме того, могут быть проблемы на хост машине - лимиты, кривые сетевухи.
 

grigori

( ͡° ͜ʖ ͡°)
Команда форума
в iptables правил нет, за идею залогировать входящие и выбрать яндекс - спасибо, можно узнать, доходят ли они вообще.
Мунина нет, дефолтный монитор линоды показывает стабильную умеренную загрузку, la практически всегда меньше 1.
проблемы с i/o я решил давно
 
Последнее редактирование:

Активист

Активист
Команда форума
в iptables правил нет, за идею залогировать входящие и выбрать яндекс - спасибо, можно узнать, доходят ли они вообще.
Мунина нет, дефолтный монитор линоды показывает стабильную умеренную загрузку, la практически всегда меньше 1.
проблемы с i/o я решил давно
Единственное придется обработчик писать для лога iptables, что бы тот обратки брал с IP (src), по умолчанию вроде модуль log iptables обратки не пишет.
 

AnrDaemon

Продвинутый новичок
Можно хоть вообще fproble-ulog прикрутить. Если уж начали раскручивать.
 

AnrDaemon

Продвинутый новичок
Скорее бридж между fprobe и iptables.
Позволяет не писать тупо весь трафик, а обсчитывать только конкретные, попадающие под правила, пакеты.
Я такую связку на работе давно держу, после сбора можно уже сразу статистику считать, не заморачиваясь фильтрацией - всё отфильтровано до нас(с).
 
Сверху