Не удалось создать кластер Dataproc из-за бесплатных кредитов Google Cloud

Я использую бесплатные кредиты Google Cloud. Я подписался на Учебное пособие по Dataproc, но когда я запускаю следующую команду, у меня возникает ошибка в отношении емкости хранилища.

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
  --region=${REGION} \
  --zone=${ZONE} \
  --image-version=1.5 \
  --master-machine-type=n1-standard-4 \
  --worker-machine-type=n1-standard-4 \
  --bucket=${BUCKET_NAME} \
  --optional-components=ANACONDA,JUPYTER \
  --enable-component-gateway \
  --metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

Ты хоть представляешь, как это исправить? Я изменил n1-standard-4 на n1-standard-1, но не смог это исправить. Однако, когда я удалил --image-version=1.5, команда заработала. Создает ли это какие-либо проблемы для остальной части программы?

Также из веб-интерфейса, когда я нажимаю ссылку JupyterLab, я не вижу значок Python 3 среди ядер, доступных в моем кластере Dataproc. У меня только Python 2, и он продолжает говорить, что соединение с сервером пропало.

Вот изображение ошибки JupyterLab: 1




Ответы (1)


Вы видите ошибку, касающуюся емкости хранилища, потому что в версии образа 1.5 Dataproc использует большие диски объемом 1000 ГиБ для главных и рабочих узлов для повышения производительности. Вы можете уменьшить размер диска, используя флаги команд --master-boot-disk-size=100GB и --worker-boot-disk-size=100GB:

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
  --region=${REGION} \
  --zone=${ZONE} \
  --image-version=1.5 \
  --master-machine-type=n1-standard-4 \
  --master-boot-disk-size=100GB \
  --worker-machine-type=n1-standard-4 \
  --worker-boot-disk-size=100GB \
  --bucket=${BUCKET_NAME} \
  --optional-components=ANACONDA,JUPYTER \
  --enable-component-gateway \
  --metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

Когда вы удалили флаг --image-version=1.5, эта команда использовала версию изображения по умолчанию 1.3, которая по умолчанию не поддерживает Python 3, поэтому вы не видите ядро ​​Python 3 в JupyterLab.

person Igor Dvorzhak    schedule 07.09.2020
comment
Спасибо за ваш ценный отзыв. Я попробовал ваше предложение и получил следующую ошибку: Ожидание операции создания кластера ... ⠛ ПРЕДУПРЕЖДЕНИЕ: для PD-Standard без локальных SSD мы настоятельно рекомендуем выделить 1 ТБ или больше, чтобы обеспечить стабильно высокую производительность ввода-вывода. См. cloud.google.com/compute/d ocs / disks / performance для получения информации о диске I. / О производительности. Ожидание операции создания кластера ... выполнено. ОШИБКА: (gcloud.beta.dataproc.clusters.create) Ошибка операции [projects / - / - / -]: Тайм-аут ожидания для экземпляра m ysamc3-m для отчета в .. - person S H; 09.09.2020
comment
Просто чтобы дать обновление. Я решил проблему, создав одноузловой кластер. теперь у меня есть доступ как к jupyterlab, так и к ноутбуку 3. Я также смог успешно запустить руководство. Единственный вопрос, который у меня есть: в руководстве говорится, что код будет запускаться ядром Python 3 (а не ядром PySpark). Это причина того, что требуется так много времени, чтобы вернуть результат запроса из большого запроса в блокнот Jupyter? как я могу увеличить скорость выполнения запросов этим методом? - person S H; 09.09.2020
comment
Для увеличения скорости выполнения запросов обычно требуется увеличить размер кластера, особенно если вы используете кластер с одним узлом. Вы можете попробовать использовать 2-рабочий кластер с e2-standard-2 типом машины для главного и рабочего узлов - возможно, он уместится в бесплатных кредитах с загрузочными дисками 100 ГиБ. - person Igor Dvorzhak; 09.09.2020