Модули Kubernetes, которые не работают в песочнице Pod, изменены, они будут уничтожены и созданы заново

В кластере Google Container Engine (GKE) я иногда вижу, что модуль (или несколько модулей) не запускается, и просматривая его события, я вижу следующее

Песочница пода изменена, она будет уничтожена и создана заново.

Если я подожду - он просто будет повторять попытки.
Если я удалю модуль и позволю им воссоздать набор реплик развертывания, он запустится правильно.

Непоследовательное поведение.

Kubernetes версий 1.7.6 и 1.7.8

Любые идеи?


person Eldad Assis    schedule 19.10.2017    source источник
comment
Я тоже это вижу, он регистрирует эти ошибки примерно раз в секунду много тысяч раз.   -  person speedplane    schedule 25.10.2017
comment
Да - вот что я вижу. Кто-нибудь из @googlecloud может здесь комментировать?   -  person Eldad Assis    schedule 27.10.2017


Ответы (3)


Я вижу следующее сообщение, опубликованное в Панели мониторинга состояния Google Cloud:

"Мы исследуем проблему, затрагивающую кластеры Google Container Engine (GKE), когда после сбоя докера или его перезапуска на узле невозможно запланировать поды.

Считается, что проблема затрагивает все кластеры GKE, на которых работает Kubernetes v1.6.11, v1.7.8 и v1.8.1.

Наша команда инженеров предлагает: Если узлы находятся в версии v1.6.11, понизьте версию своих узлов до версии v1.6.10. Если узлы находятся в версии v1.7.8, понизьте версию своих узлов до версии v1.7.6. Если узлы находятся на версии 1.8.1, понизьте версию своих узлов до версии 1.7.6.

Альтернативные обходные пути также предоставляются группой инженеров в

person Carlos    schedule 30.10.2017
comment
Интересно. Хороший улов, хотя у меня и на 1.7.6 был такой. Я попробую один из обходных путей и обновлюсь! - person Eldad Assis; 30.10.2017
comment
Текущий статус - я попробовал один из обходных путей Google. Это не помогло. Я понизил рейтинг узлов кластера до версии 1.7.6 (с которой у меня уже были проблемы). Вроде бы лучше, но все еще неуверенно. - person Eldad Assis; 31.10.2017
comment
Не повезло. Все еще получаю эти ошибки. Google выпускает исправление, поэтому я надеюсь, что это поможет. - person Eldad Assis; 03.11.2017
comment
Eldad AK, если вы перешли на версию 1.7.6 и проблема не исчезла, возможно, она не связана с инцидентом. Вы должны проверить журнал событий и / или kubelet, чтобы увидеть, есть ли какие-либо ошибки при запуске / запуске PodSandbox. - person Yu-Ju Hong; 07.11.2017
comment
Последнее обновление - обновление кластера до 1.8.1-gke.1, похоже, решило эти проблемы (на данный момент). Он работал несколько дней без единой ошибки, связанной с моим исходным сообщением. - person Eldad Assis; 12.11.2017
comment
Я получаю эту ошибку с версией v1.18.14 - person Dániel Kis; 15.02.2021

В моем случае это произошло из-за недостатка памяти и ограничений ЦП.

person Gilad Sharaby    schedule 23.03.2020
comment
Так было в моем случае. Увеличение памяти и процессора исправили это для меня. Как можно было так запутать ошибку? Я потерял часы из-за этого. - person tozka; 12.08.2020
comment
Это смешно. Для меня это было потому, что я поставил memory: 300m вместо memory: 300Mi - person Phil; 05.10.2020

У меня возникла такая же проблема на одном узле в кластере GKE 1.8.1 (другие узлы были в порядке). Я сделал следующее:

  1. Убедитесь, что в вашем пуле узлов есть запас для приема всех модулей, запланированных на затронутом узле. В случае сомнений увеличьте пул узлов на 1.
  2. Осушите затронутый узел после это руководство:

    kubectl drain <node>
    

    Вы можете столкнуться с предупреждениями о демонсетах или модулях с локальным хранилищем, продолжайте работу.

  3. Выключите затронутый узел в Compute Engine. GKE должен запланировать замену узла, если размер вашего пула меньше указанного в описании пула.

person Олексій Донога    schedule 01.11.2017
comment
Это хорошее решение для плохого узла, но мои проблемы, похоже, возникают более чем на одном узле. И они не всегда в одно и то же время, поэтому это похоже на охоту за привидениями. - person Eldad Assis; 02.11.2017
comment
Конечно, для больших кластеров с несколькими проблемными узлами потребуется слишком много ручной работы с этим решением. Я надеюсь, что этот ответ поможет кому-то с небольшим кластером, который случайно найдет эту ветку. - person Олексій Донога; 03.11.2017