Ошибка при финализации итератора GeneratorDataset: Отменено: операция была отменена

При запуске конвейера kubeflow с кодом, использующим тензорный поток 2.0. ниже отображается ошибка в конце каждой эпохи

W tensorflow / core / kernels / data / generator_dataset_op.cc: 103] Ошибка при финализации итератора GeneratorDataset: Отменено: операция была отменена

Кроме того, через несколько эпох он не показывает журнал и показывает эту ошибку

Этот шаг находится в состоянии Failed с этим сообщением: Узлу не хватило ресурса: памяти. Основной контейнер использовал 100213872Ki, что превышает его запрос 0. Ожидание контейнера использовало 25056Ki, что превышает его запрос 0.


person Radhi    schedule 31.01.2020    source источник
comment
У меня тоже первая ошибка. Вторую ошибку пока не видел.   -  person markemus    schedule 06.02.2020


Ответы (7)


В моем случае я не совпал batch_size и steps_per_epoch

Например,

his = Test_model.fit_generator(datagen.flow(trainrancrop_images, trainrancrop_labels, batch_size=batchsize),
                               steps_per_epoch=len(trainrancrop_images)/batchsize,
                               validation_data=(test_images, test_labels),
                               epochs=1,
                               callbacks=[callback])

batch_size в datagen.flow должен соответствовать steps_per_epoch в Test_model.fit_generator (на самом деле я использовал неправильное значение в steps_per_epoch)

Думаю, это один из случаев ошибки.

В результате, я думаю, проблема возникает при неправильном соответствии размера пакета и шагов (итераций)

Может быть, поплавки могут стать проблемой, когда вы сделаете шаг, разделив ...

Проверьте свой код об этой проблеме.

Удачи :)

person Jaeyoung Chung    schedule 05.03.2020

Это произошло из-за несовместимости версий CUDA и Tensorflow. приведенные ниже версии хорошо работают друг с другом

tenorflow-gpu == 2.0.0

tenorflow-addons == 0.6.0

nvidia / cuda: 10.0-cudnn7-время выполнения

person Radhi    schedule 25.02.2020

Обновление tensorflow с 2.1 до 2.2 устранило эту проблему для меня. Мне не пришлось переходить на tf-nightly версию.

person Safwan    schedule 12.06.2020
comment
Обновлен TensorFlow 2.1 до TensorFlow 2.2, и эта проблема исчезла. меня - person user3284804; 03.07.2020
comment
@ user3284804 - Пожалуйста, рассмотрите возможность голосования, если этот ответ вам помог. Спасибо. - person Safwan; 03.07.2020
comment
Я запускаю tenorflow-gpu на conda env, и он продолжает устанавливать версию 2.1, и если я попытаюсь обновить его с помощью pip3 install --upgrade tensorflow-gpu, я больше не могу его использовать, никто не знает, как обновить tenorflow-gpu версия внутри env - person Dhouibi iheb; 07.09.2020
comment
@Dhouibiiheb Что вы имеете в виду, говоря, что больше не можете его использовать? - person Safwan; 08.09.2020
comment
@Safwan означает, что когда я пытаюсь сделать следующее: pip install --upgrade tenorflow == 2.2 / 2.3 tensorflow, больше не будет работать .. насколько я знаю, conda env поддерживает tf 2.1 на данный момент, хотя не уверен - person Dhouibi iheb; 09.09.2020
comment
@Dhouibiiheb conda теперь поддерживает tf2.2. Используйте conda install -c anaconda tensorflow-gpu для установки tf2.2 - person Safwan; 09.09.2020
comment
@Safwan Я уже пробовал, ничего не изменится, не обновит tf до tf2.2 - person Dhouibi iheb; 10.09.2020

У меня точно такая же проблема. Люди утверждали, что потепление излишне, и его убрали в tf-nightly, см. здесь. Но утечка памяти сохраняется для каждой эпохи.

person MH Yip    schedule 19.02.2020

В моем случае: я установил tf-nightly. Теперь он работает, хотя я новичок в тензорном потоке. Я следил за этим ссылка

Ты можешь попробовать.

person Shantanu Nath    schedule 11.02.2020

Чтобы решить эту проблему, вы можете добавить workers=1 в model.fit(...).

person Sajad Homayoun    schedule 25.01.2021

Я попробовал выполнить следующие шаги, и в моем случае это сработало.

conda install tensorflow=2.0.0
conda install -c conda-forge keras=2.3.0
person Shruti Jadon    schedule 11.05.2021