Выполняется предыдущая команда проверки ошибки клиента Sense

Я использую последнюю версию ядра sensu 0.26.1, настроил сервер sensu на одном компьютере с CentOS, настроил один клиент sensu на другом.

В одном клиенте sensu около 500 проверок, я продолжаю видеть "previous check command execution in progress" в sensu-client.log, но каждая проверка на самом деле завершается очень быстро (большинство из них менее 0,1 секунды, а интервал составляет 60 секунд), я могу подтвердить это, запустив его под sensu пользователем sudo su sensu -c "{run my check}".

Однако реальная ситуация была такова: на панели управления uchiwa показано, что многие из моих проверок выполнялись более 1 минуты, похоже, что клиент sensu серьезно завис/медленно, я пробовал следующие подходы:

  1. Удалите несколько длительных проверок и перезапустите сервер/клиент sensu.
  2. Добавить определение время ожидания к моим проверкам, ограничить время ожидания до 10, что привело ко многим проверкам "Время выполнения истекло".
  3. Я пробовал запускать только 1, 10, 50 проверок, вроде все работало нормально, однако, как только количество проверок достигало определенного числа, может быть 200-300, возникала проблема.

Ни один из вышеперечисленных способов не работает, есть ли способ отладить, какие проверки действительно блокируют? Или я могу настроить sensu, чтобы он просто убивал проверку, когда она превышала определение timeout? Чтобы я не увидел в логе это сообщение "выполняется предыдущая команда проверки"

Меня заблокировали, нужна помощь :)


person Wayne Ye    schedule 30.08.2016    source источник


Ответы (1)


Чтобы отладить это, вы, очевидно, можете проверить sensu-client.log. Вы можете настроить уровень журнала в файле по умолчанию для sensu.

кроме того: ps aux | grep sensu покажет вам, что каждая проверка будет отображаться как отдельный процесс, и вы можете легко вручную подтвердить, если и какие проверки могут быть зависли. Обычная проблема тут скорее в недоработках чеков из-за которых они зависают, чем в самом сенсу-клиенте зависает.

Я испытал это на себе с некоторыми проверками.

Чтобы получить более подробную информацию о вашей проблеме, потребуется хотя бы некоторый вывод журналов и команда ps [когда возникает проблема].

person Rick Rackow    schedule 18.02.2017