Как использовать win.disk.duration в Bosun или как уменьшить метрику типа счетчика?

Я использую Bosun для сбора информации о среднем времени отклика жесткого диска (win.disk.duration), он выводит такой график:

введите здесь описание изображения

Я понимаю, что это показывает скорость изменения сообщаемого значения WMI, AvgDiskSecPerRead.

Что я хочу сделать, так это уменьшить это вычисленное значение, принимая максимальное значение за определенный период времени. Однако, если я установлю даунсемпл Max с окном 5m, я получу следующее:

введите здесь описание изображения

Обратите внимание на изменение масштаба по оси Y.

Как я могу уменьшить скорость, чтобы получить ожидаемые результаты (или почему то, о чем я прошу, не имеет смысла)?


person George Duckett    schedule 08.08.2017    source источник


Ответы (2)


В настоящее время, поскольку это счетчик, вы не можете правильно его уменьшить с помощью OpenTSDB (источник данных, который, как я предполагаю, вы используете из-за тегов вопроса). Это связано с тем, что OpenTSDB ошибся в математике во время проектирования, и это еще не исправлено. Дополнительные сведения см. в этой теме групп Google. Короче говоря, расчет скорости (производной) должен быть раньше в порядке операций.

Кроме того, имейте в виду, что в настоящее время на нашей стороне (сборщике) мы, похоже, испортили связанную метрику win.disk.percent_time, которую все еще нужно изучить (отслеживается в этом проблема).

person Kyle Brandt    schedule 09.10.2017
comment
Спасибо за объяснение и ссылку. Судя по возрасту этой ветки, я не задержу дыхание. - person George Duckett; 10.10.2017

Похоже, что это преобразование связано с применением агрегирования к первой производной. Вот пример с использованием метрики win.disk.duration из scollector, но на другом бэкэнд.

  1. Необработанные данные представляют собой счетчик со сбросом.
  2. Первая производная вычисляет скорость изменения за определенный пользователем интервал (1 секунда). Отрицательная дельта по умолчанию обрабатывается как сброс, но это поведение можно контролировать с помощью rate-counter=true|false параметр.
  3. Функция агрегирования max применяется к тарифу за определенный пользователем период (5 минут).

Однако я бы рекомендовал использовать функцию 95 процентилей вместо max. Статистика p95 позволяет отбрасывать нечастые всплески из анализа.

скорость изменения

Отказ от ответственности: я работаю в Axibase.

person Sergei Rodionov    schedule 10.08.2017