Я получаю сообщение об ошибке zeppelin org.apache.spark.SparkException: задание прервано с описанием Причина: java.lang.OutOfMemoryError: превышен предел накладных расходов сборщика мусора.
Мониторинг Spark показал, что сборщик мусора занимает почти все время задачи:
Я начал расследование и выяснил, что проблема не в неэффективной задаче в цеппелине, а в том, как мы запускаем искру. Zeppelin предоставляет встроенную искру и способ использования внешней искры (вы можете установить SPARK_HOME в conf / zeppelin-env.sh или в zeppelin gui). Когда я использую встроенную искру, все работает хорошо, но для внешней искры я получаю исключение Превышен предел служебных данных GC для той же задачи.
В чем разница между этими двумя способами запуска искры и как я могу исправить исключение превышения лимита накладных расходов сборщика мусора?