Сбой IBM Cloud Private 2.1.0.1 ee из-за ошибки времени ожидания при установке мониторинга

Я пытался настроить ICP EE на одном узле, но я продолжаю получать сообщение об ошибке установки, как только я перехожу к задаче развертывания службы мониторинга.

Эта конкретная задача выполняется около 30 минут, а затем завершается сбоем. Ниже приведен журнал ошибок, который я также получил.

Есть ли что-то, что мне нужно сделать по-другому?

Для этого я использовал основные шаги установки в центре знаний.

TASK [monitoring : Deploying monitoring service] 

*******************************
    fatal: [localhost]: FAILED! => {
   "changed":true,
   "cmd":"kubectl apply --force --overwrite=true -f /installer/playbook/..//cluster/cfc-components/monitoring/",
   "delta":"0:30:37.425771",
   "end":"2018-02-26 17:19:04.780643",
   "failed":true,
   "rc":1,
   "start":"2018-02-26 16:48:27.354872",
   "stderr":"Error from server: error when creating \"/installer/cluster/cfc-components/monitoring/grafana-router-config.yaml\": timeout\nError from server (Timeout): error when creating \"/installer/cluster/cfc-components/monitoring/kube-state-metrics-deployment.yaml\": the server was unable to return a response in the time allotted, but may still be processing the request (post deployments.extensions)",
   "stderr_lines":[
      "Error from server: error when creating \"/installer/cluster/cfc-components/monitoring/grafana-router-config.yaml\": timeout",
      "Error from server (Timeout): error when creating \"/installer/cluster/cfc-components/monitoring/kube-state-metrics-deployment.yaml\": the server was unable to return a response in the time allotted, but may still be processing the request (post deployments.extensions)"
   ],
   "stdout":"configmap \"alert-rules\" created\nconfigmap \"monitoring-prometheus-alertmanager\" created\ndeployment \"monitoring-prometheus-alertmanager\" created\nconfigmap \"alertmanager-router-nginx-config\" created\nservice \"monitoring-prometheus-alertmanager\" created\ndeployment \"monitoring-exporter\" created\nservice \"monitoring-exporter\" created\nconfigmap \"monitoring-grafana-config\" created\ndeployment \"monitoring-grafana\" created\nconfigmap \"grafana-entry-config\" created\nservice \"monitoring-grafana\" created\njob \"monitoring-grafana-ds\" created\nconfigmap \"grafana-ds-entry-config\" created\nservice \"monitoring-prometheus-kubestatemetrics\" created\ndaemonset \"monitoring-prometheus-nodeexporter-amd64\" created\ndaemonset \"monitoring-prometheus-nodeexporter-ppc64le\" created\ndaemonset \"monitoring-prometheus-nodeexporter-s390x\" created\nservice \"monitoring-prometheus-nodeexporter\" created\nconfigmap \"monitoring-prometheus\" created\ndeployment \"monitoring-prometheus\" created\nconfigmap \"prometheus-router-nginx-config\" created\nservice \"monitoring-prometheus\" created\nconfigmap \"monitoring-router-entry-config\" created",
   "stdout_lines":[
      "configmap \"alert-rules\" created",
      "configmap \"monitoring-prometheus-alertmanager\" created",
      "deployment \"monitoring-prometheus-alertmanager\" created",
      "configmap \"alertmanager-router-nginx-config\" created",
      "service \"monitoring-prometheus-alertmanager\" created",
      "deployment \"monitoring-exporter\" created",
      "service \"monitoring-exporter\" created",
      "configmap \"monitoring-grafana-config\" created",
      "deployment \"monitoring-grafana\" created",
      "configmap \"grafana-entry-config\" created",
      "service \"monitoring-grafana\" created",
      "job \"monitoring-grafana-ds\" created",
      "configmap \"grafana-ds-entry-config\" created",
      "service \"monitoring-prometheus-kubestatemetrics\" created",
      "daemonset \"monitoring-prometheus-nodeexporter-amd64\" created",
      "daemonset \"monitoring-prometheus-nodeexporter-ppc64le\" created",
      "daemonset \"monitoring-prometheus-nodeexporter-s390x\" created",
      "service \"monitoring-prometheus-nodeexporter\" created",
      "configmap \"monitoring-prometheus\" created",
      "deployment \"monitoring-prometheus\" created",
      "configmap \"prometheus-router-nginx-config\" created",
      "service \"monitoring-prometheus\" created",
      "configmap \"monitoring-router-entry-config\" created"
   ]
}

person Tumi    schedule 26.02.2018    source источник


Ответы (1)


У этого узла есть хотя бы 16 ГБ памяти (или даже 32 ГБ)? Возможно, хост перегружен начальной нагрузкой, когда модули подключаются к сети.

Второе, что нужно проверить, это то, что происходит, когда вы применяете этот каталог:

  • Вы можете повторно запустить это же действие из командной строки: cd cluster/ kubectl apply --force --overwrite=true -f cfc-components/monitoring/

  • Затем вы можете заглянуть за кулисы, что происходит:

kubectl -n kube-system get pod -o wide

  1. Блоки застряли в нерабочем состоянии?
  2. Контейнеры в модулях не запускаются (например, отображаются 0/2 или 1/3 или что-то подобное)?

journalctl -ru kubelet -o cat | head -n 500 > kubelet-logs.txt

  1. Kubelet жалуется на возможность запускать контейнеры?
  2. Kubelet жалуется на неработоспособность Docker?

  3. Если какой-то модуль показывает, что он неработоспособен (выше из № 1/№ 2), опишите его и проверьте, указывает ли какое-либо из событий, почему он не работает:

kubectl -n kube-system describe pod [failing-pod-name]

Если вы еще не настроили kubectl на хосте для взаимодействия с системой или если модуль auth-idp еще не развернут, вы можете выполнить следующие шаги для настройки kubectl:

  • Скопируйте двоичный файл kubectl на хост, а затем используйте локальную конфигурацию kubelet. Вы можете обновить файл KUBECONFIG в профиле оболочки (например, .bash_profile), чтобы он применялся для каждого сеанса терминала.

docker run -e LICENSE=accept -v /usr/local/bin:/data \ ibmcom/icp-inception:[YOUR_VERSION] \ cp /usr/local/bin/kubectl /data export KUBECONFIG=/var/lib/kubelet/kubelet-config

person Michael Elder    schedule 26.02.2018