Я построил модель семантической сегментации Keras (тензорный бэкэнд) и пытаюсь обучить ее на движке Google Cloud ML. У меня есть около 200000 изображений (256x256) для обучения небольшими партиями (10) в течение примерно 100 эпох. 1 эпоха заняла почти 25 часов, когда я использовал только мастер-устройство типа complex_model_m_gpu.
Я не уверен, как модели Keras адаптируются к обучающим устройствам с несколькими графическими процессорами (например, complex_model_m_gpu). Никакой документации по этому поводу нет, но только в отношении распределенного обучения TensorFlow. Как я могу наилучшим образом использовать ресурсы, доступные в движке машинного обучения, для быстрого обучения моей модели? Как использование нескольких воркеров влияет на процесс обучения. Когда я добавляю воркеров в свой стек, это показывает, что мастер и воркер оба выполняют 1 эпоху, независимо друг от друга, и они оба сохраняют разные контрольные точки. Это кажется контрпродуктивным.