Я пытаюсь выполнить задание по обучению в Google Cloud ML. Признаки того, что моя работа работает, следующие:
- Такие сообщения, указывающие на то, что пакет был собран и установлен:
INFO 07-06-2017, 15:14:01 -0700 master-replica-0 Успешно построено training-job-foo
INFO 07.06.2017, 15:14:01 -0700 master-replica-0 Установка собранных пакетов: training-job-foo
INFO 07-06-2017, 15:14:01 -0700 master-replica-0 Успешно установлено training-job-foo-0.1.dev0
INFO 07-06-2017, 15:14:01 -0700 master-replica-0 Запуск команды: pip install --user training-job-foo-0.1.dev0.tar.gz
INFO 07.06.2017, 15:14:02 -0700 master-replica-0 Обработка ./training-job-foo-0.1.dev0.tar.gz
- Такие сообщения, указывающие на то, что моя работа начинается:
INFO 07-06-2017, 15:14:03 -0700 master-replica-0 Запуск команды: python -m training-job-foo.training_routine_bar --job-dir gs://region-bucket-similar-to-training- работа/выход/
- Такое сообщение указывает на то, что мои скалярные сводки обрабатываются:
INFO 07.06.2017, 15:14:21 -0700 master-replica-0 Суммарное имя Total Accuracy недопустимо; вместо этого используйте Total_Accuracy.
Наконец, я также вижу увеличение использования ЦП, памяти и увеличение потребляемых MLUnits.
Я должен добавить, я также вижу, что создатели сводных файлов создают сводные файлы до создания заданий, но я не вижу, чтобы эти файлы увеличивались в размере. Я также вижу исходный файл контрольной точки, записанный в gs://region-bucket-similar-to-training-job/output/
Кроме этого я не вижу никаких других журналов или выходных данных. Я должен видеть журналы, так как я печатаю точность, потери время от времени. Я также пишу резюме и файлы контрольных точек.
Что мне не хватает?
Также какие другие инструменты отладки доступны в таких сценариях? Все, что я делаю в настоящее время, — это потоковая передача журналов, просмотр статуса задания, использование ЦП, использование памяти в консоли Cloud ML и просмотр моей корзины Cloud Storage на предмет любых изменений.