Я столкнулся с периодической проблемой при выполнении задания по обучению пользовательскому коду в Google ML Engine. В коде выполняется задача сегментации Python TensorFlow. Это прерывисто, потому что, когда мы запускаем одну и ту же задачу во второй раз, задание выполняется успешно.
Эта периодически возникающая проблема повторяется много раз (более 30 раз). Я запускал один и тот же пользовательский код в автономном режиме с тем же набором данных, они пока не вызывают ту же ошибку.
Ниже приведена ошибка полезной нагрузки:
jsonPayload: {
created: 1563475627.0648582
levelname: "CRITICAL"
lineno: 274
message: "Unexpected Event status: 1"
pathname: "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
}
Вопрос в том, как решить эту проблему?
Обновление: Мой первоначальный тест заключается в том, что в этом случае это могло быть вызвано более новой версией tensorflow (1.12), поскольку проблема не возникает в предыдущей версии (1.8). Оба случая работают на видеокарте Tesla K80 (профиль вычислений 3.7).