Прерывистая ошибка в ML Engine при обучении больших данных с использованием пользовательского кода обучения

Я столкнулся с периодической проблемой при выполнении задания по обучению пользовательскому коду в Google ML Engine. В коде выполняется задача сегментации Python TensorFlow. Это прерывисто, потому что, когда мы запускаем одну и ту же задачу во второй раз, задание выполняется успешно.

Эта периодически возникающая проблема повторяется много раз (более 30 раз). Я запускал один и тот же пользовательский код в автономном режиме с тем же набором данных, они пока не вызывают ту же ошибку.

Ниже приведена ошибка полезной нагрузки:

jsonPayload: {
  created:  1563475627.0648582   
  levelname:  "CRITICAL"   
  lineno:  274
  message:  "Unexpected Event status: 1"
  pathname:  "tensorflow/core/common_runtime/gpu/gpu_event_mgr.cc"
 }

Вопрос в том, как решить эту проблему?

Обновление: Мой первоначальный тест заключается в том, что в этом случае это могло быть вызвано более новой версией tensorflow (1.12), поскольку проблема не возникает в предыдущей версии (1.8). Оба случая работают на видеокарте Tesla K80 (профиль вычислений 3.7).


person kursun    schedule 19.07.2019    source источник


Ответы (2)


Чтобы устранить эту проблему, по-видимому, вы можете увеличить уровень ведения журнала TF, чтобы он был более подробным (и при необходимости отладите журнал).

Кроме того, проверьте наличие ошибок, связанных с графическим драйвером. В частности, проблема связана с этой темой

person Community    schedule 05.10.2019

Решением этой проблемы является запуск обучающего кода на более ранней версии ML-движка (более ранняя версия TensorFlow) на уровне 1.8.

С тех пор мы не сталкивались с подобной проблемой.

person kursun    schedule 22.08.2019