Dovg
Продвинутый новичок
Добрый день!
Исходные данные:
На всех серверах одинаковая операционка - debian stable
Выделенный фронт
Несколько бекендов на fpm.
Часть проектов имеет в качестве бекендов только один сервер, часть - размазана ровным слоем по "ферме"
На бекендах такая конфигурация:
Вот один из пулов
Симптомы проблемы:
Нагрузка на одном из серверов внезапно и очень быстро упала с положенных la 6-8 до смешных 0.5
Проекты, бекенд которых жил только на этом сервере, перестали отвечать извне.
Причем отваливались по таймауту nginx, а не сразу.
ps aux | grep fpm показывал вполне живущих деток, причем в top они не попадали. У всех был статус S.
Было ощущение, что fpm принимал соединение, но ничего не делал.
Если бы он был просто выключен, то я бы увидел 504 сразу.
Решать проблему надо было оперативно, поэтому толком ничего посмотреть не смог.
Вылечилось так: sudo invoke-rc.d php5-fpm reload
Уже потом в slow_log я обнаружил вот это:
Никакого трейса к ним нет.
Все записи slow-log выше и ниже "проблемы" имеют вполне осмысленный трейс, что ожидаемо.
Вопросы:
Что произошло и как этого избежать?
Если виновато приложение, то почему "зависли" все пулы, а не один? Зависли точно все, иначе бы la не снизился так сильно. Извне это было не видно, т.к. умный nginx перераспределил нагрузку на другие сервера.
Если нужно какие-то еще данные, с радостью предоставлю.
ps. Опыт работы с fpm у меня очень небольшой. До него мы использовали /usr/bin/php -b ...
Исходные данные:
На всех серверах одинаковая операционка - debian stable
Код:
uname -a
Linux kley 2.6.26-2-amd64 #1 SMP Thu Nov 5 02:23:12 UTC 2009 x86_64 GNU/Linux
Код:
/usr/sbin/nginx -v
nginx version: nginx/0.7.65
Часть проектов имеет в качестве бекендов только один сервер, часть - размазана ровным слоем по "ферме"
На бекендах такая конфигурация:
Код:
php -v
PHP 5.3.3-1 with Suhosin-Patch (cli) (built: Aug 17 2010 11:59:48)
Copyright (c) 1997-2009 The PHP Group
Zend Engine v2.3.0, Copyright (c) 1998-2010 Zend Technologies
Код:
cat /etc/php5/fpm/main.conf | grep -vE '^;' | uniq
[global]
pid = /var/run/php5-fpm.pid
error_log = /var/log/php5-fpm.log
include=/etc/php5/fpm/pool.d/*.conf
Код:
cat /etc/php5/fpm/pool.d/plus1.conf
[plus1]
listen = 0.0.0.0:9801
user = nobody
group = nogroup
pm = dynamic
pm.max_children = 164
pm.start_servers = 10
pm.min_spare_servers = 10
pm.max_spare_servers = 20
pm.max_requests = 1000
request_terminate_timeout = 0
request_slowlog_timeout = 1
slowlog = /var/log/php-fpm.log.slow
rlimit_files = 1024
rlimit_core = 0
catch_workers_output = yes
env[HOSTNAME] = $HOSTNAME
env[PATH] = /usr/bin:/bin
env[TMP] = /tmp
env[TMPDIR] = /tmp
env[TEMP] = /tmp
php_admin_value[sendmail_path] = /usr/sbin/sendmail -t -i -f [email protected]
php_flag[display_errors] = off
php_admin_value[error_log] = /var/log/fpm-php.proxy.log
php_admin_flag[log_errors] = on
php_admin_value[memory_limit] = 128M
php_admin_value[max_execution_time] = 10
php_admin_value[max_input_time] = 60
php_admin_value[expose_php] = off
Нагрузка на одном из серверов внезапно и очень быстро упала с положенных la 6-8 до смешных 0.5
Проекты, бекенд которых жил только на этом сервере, перестали отвечать извне.
Причем отваливались по таймауту nginx, а не сразу.
ps aux | grep fpm показывал вполне живущих деток, причем в top они не попадали. У всех был статус S.
Было ощущение, что fpm принимал соединение, но ничего не делал.
Если бы он был просто выключен, то я бы увидел 504 сразу.
Решать проблему надо было оперативно, поэтому толком ничего посмотреть не смог.
Вылечилось так: sudo invoke-rc.d php5-fpm reload
Уже потом в slow_log я обнаружил вот это:
Код:
Jan 26 20:05:53.645078 [pool plus1] pid 13144
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
Jan 26 20:05:53.645162 [pool plus1] pid 13151
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
[0x00000000031de628] +++ dump failed
Jan 26 20:05:53.645241 [pool plus1] pid 13203
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
[0x00000000030f0ab8] +++ dump failed
Jan 26 20:05:53.775811 [pool plus1] pid 13024
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
Jan 26 20:05:53.775961 [pool plus1] pid 13025
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
Jan 26 20:05:53.776162 [pool plus1] pid 13085
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
Jan 26 20:05:53.776227 [pool plus1] pid 13114
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
Jan 26 20:05:53.776288 [pool plus1] pid 13159
script_filename = /var/www/plus1.wapstart.ru/plus1/src/rotator/index.php
Все записи slow-log выше и ниже "проблемы" имеют вполне осмысленный трейс, что ожидаемо.
Вопросы:
Что произошло и как этого избежать?
Если виновато приложение, то почему "зависли" все пулы, а не один? Зависли точно все, иначе бы la не снизился так сильно. Извне это было не видно, т.к. умный nginx перераспределил нагрузку на другие сервера.
Если нужно какие-то еще данные, с радостью предоставлю.
ps. Опыт работы с fpm у меня очень небольшой. До него мы использовали /usr/bin/php -b ...