Я запускаю Spark с использованием кластера данных Google Cloud. Запись набора данных в GCS застревает с 1 незавершенной задачей, которая никогда не заканчивается

Я запускаю Spark с использованием кластера данных Google Cloud. При записи набора данных в ведро GCS (облачное хранилище Google) он поразил последний раздел, который никогда не заканчивается.

Он показывает, что выполнено 799/800 задач. Но ожидающая 1 задача никогда не заканчивается.


person Devender Prakash    schedule 23.06.2020    source источник


Ответы (1)


Это происходит в основном из-за перекоса данных.

Также, если вы пробуете объединение, проверьте, не имеют ли столбцы, используемые для объединения, значения Null внутри них. Это может быть причиной перекрестного соединения для нулевых значений.

person Yayati Sule    schedule 25.06.2020