Я пытаюсь обучить свою модель (которая не построена с помощью tf.estimator или tf.keras), используя распределенное обучение в ML Engine.
Какие шаги я должен предпринять, чтобы запустить распределенное обучение в ML Engine?
Я нашел следующие рекомендации:
- укажите параметр
--scale-tier
из пошагового руководства < / а> - использовать API распределенной стратегии в коде из недавних переговоров google io
Итак, если первое указано в командной строке, означает ли это, что мне не нужно ничего делать со вторым, потому что ML Engine каким-то образом заботится о распределении моего графика по устройствам? Или мне нужно сделать и то, и другое?
А также, что произойдет, если я вручную укажу устройства, используя:
with tf.device('/gpu:0/1/2/etc')
..и затем запустить команду с --scale-tier
?