Ошибка при запуске обучения модели в облаке google ml

Я хочу провести обучение модели в облаке. Я перехожу по этой ссылке, которая запускает образец кода для обучения модели. на основе набора данных о цветах. Учебное пособие состоит из 4 этапов:

  1. Настройте сегмент облачного хранилища
  2. Предварительная обработка данных обучения и оценки в облаке
  3. Запустите обучение модели в облаке
  4. Развертывание и использование модели для прогнозирования

Мне удалось выполнить шаги 1 и 2, однако на шаге 3 задание было успешно отправлено, но каким-то образом возникает ошибка, и задача завершается без статуса выхода 1. Вот журнал задачи.

Журналы ошибок во время обучения модели

Снимок экрана расширенного журнала:

Расширенные журналы ошибок

Я использовал следующую команду:

gcloud ml-engine jobs submit training test${JOB_ID} \
    --stream-logs \
    --module-name trainer.task \
    --package-path trainer\ 
    --staging-bucket ${BUCKET_NAME} \
    --region us-central1 \
    --runtime-version=1.2 \
    -- \
    --output_path "${GCS_PATH}/training" \
    --eval_data_paths "${GCS_PATH}/preproc/eval*" \
    --train_data_paths "${GCS_PATH}/preproc/train*"

Заранее спасибо!


person Shubham Shekhar    schedule 29.12.2017    source источник


Ответы (3)


Не могли бы вы подтвердить, что входные файлы (eval_data_paths и train_data_paths) не пусты? Кроме того, если у вас все еще возникают проблемы, можете ли вы сообщить о проблеме https://github.com/GoogleCloudPlatform/cloudml-samples, так как с этой проблемой легче справиться на Github.

person Puneith Kaul    schedule 05.01.2018

Я столкнулся с той же проблемой и не смог разобраться, затем я последовал за this, сделайте это еще раз с git clone, и после запуска на gcs ошибки не было.

person Tung Le    schedule 04.02.2018

Это ясно из вашего сообщения об ошибке

The replica worker 1 exited with a non-zero status of 1. Termination reason: Error

что у вас есть ошибка программирования (синтаксис, неопределенный и т. д.).

Для получения дополнительной информации см. код возврата и его значение

Код возврата ------------- Значение -------------- Ответ Cloud ML Engine

0 Успешное завершение Завершение работы и освобождение рабочих мест.

1-128 Неустранимая ошибка Завершает задание и регистрирует ошибку.

Вам необходимо сначала найти свою ошибку и исправить ее, а затем повторить попытку.

Я рекомендую запустить задачу локально (если ваша конфигурация поддерживает) перед отправкой в ​​облако. Если вы обнаружите какую-либо ошибку, вы можете легко исправить ее на своем локальном компьютере.

person Hafizur Rahman    schedule 15.02.2018
comment
Да, Хафизур, ты прав, но для информации я решил эту проблему. Сценарий обучения отлично работал в моей локальной системе, но мне пришлось внести незначительные изменения в сценарий, чтобы он работал на облачной платформе. - person Shubham Shekhar; 15.02.2018