Нет журналов, нет выходных данных из учебного задания Google Cloud ML

Я пытаюсь выполнить задание по обучению в Google Cloud ML. Признаки того, что моя работа работает, следующие:

  • Такие сообщения, указывающие на то, что пакет был собран и установлен:

INFO 07-06-2017, 15:14:01 -0700 master-replica-0 Успешно построено training-job-foo

INFO 07.06.2017, 15:14:01 -0700 master-replica-0 Установка собранных пакетов: training-job-foo

INFO 07-06-2017, 15:14:01 -0700 master-replica-0 Успешно установлено training-job-foo-0.1.dev0

INFO 07-06-2017, 15:14:01 -0700 master-replica-0 Запуск команды: pip install --user training-job-foo-0.1.dev0.tar.gz

INFO 07.06.2017, 15:14:02 -0700 master-replica-0 Обработка ./training-job-foo-0.1.dev0.tar.gz

  • Такие сообщения, указывающие на то, что моя работа начинается:

INFO 07-06-2017, 15:14:03 -0700 master-replica-0 Запуск команды: python -m training-job-foo.training_routine_bar --job-dir gs://region-bucket-similar-to-training- работа/выход/

  • Такое сообщение указывает на то, что мои скалярные сводки обрабатываются:

INFO 07.06.2017, 15:14:21 -0700 master-replica-0 Суммарное имя Total Accuracy недопустимо; вместо этого используйте Total_Accuracy.

  • Наконец, я также вижу увеличение использования ЦП, памяти и увеличение потребляемых MLUnits.

  • Я должен добавить, я также вижу, что создатели сводных файлов создают сводные файлы до создания заданий, но я не вижу, чтобы эти файлы увеличивались в размере. Я также вижу исходный файл контрольной точки, записанный в gs://region-bucket-similar-to-training-job/output/

Кроме этого я не вижу никаких других журналов или выходных данных. Я должен видеть журналы, так как я печатаю точность, потери время от времени. Я также пишу резюме и файлы контрольных точек.

Что мне не хватает?

Также какие другие инструменты отладки доступны в таких сценариях? Все, что я делаю в настоящее время, — это потоковая передача журналов, просмотр статуса задания, использование ЦП, использование памяти в консоли Cloud ML и просмотр моей корзины Cloud Storage на предмет любых изменений.


person 7hacker    schedule 07.06.2017    source источник


Ответы (1)


Сожалеем, что у вас возникли проблемы. В настоящее время доступными инструментами отладки являются журналы заданий, метрики и TensorBoard, но похоже, что все они не могут быть использованы в вашем случае. Если возможно, не могли бы вы отправить нам номер своего проекта и идентификатор задания по адресу [email protected], чтобы мы могли внимательно изучить его?

person Guoqing Xu    schedule 08.06.2017
comment
Спасибо - только что сделал это и также сослался на этот пост в электронном письме - person 7hacker; 08.06.2017