Мы используем GKE (Google Kubernetes Engine) для запуска Airflow в GCC (Google Cloude Composer) для нашего конвейера данных.
Мы начали с 6 узлов и поняли, что затраты резко выросли, и мы не использовали так много ЦП. Поэтому мы подумали, что можем снизить максимум, но также включить автоматическое масштабирование.
Поскольку мы запускаем конвейер в ночное время, а днем выполняем только небольшие задания, мы хотели запустить автоматическое масштабирование между 1-3 узлами.
Итак, в пуле узлов GKE мы включили автомасштабирование, но не в группе экземпляров GCE, как они рекомендуют. Однако получаем следующее:
Почему это?
Ниже приведен график использования нашего ЦП за последние 4 дня:
Мы никогда не пропускаем 20% использования, так почему же он не уменьшается?
Сегодня утром мы вручную уменьшили его до 3 узлов ..