Я использую Pyspark из блокнота Jupyter и пытаюсь записать большой паркетный набор данных в S3.
Я получаю сообщение об ошибке "Нет свободного места на устройстве". Я поискал и выяснил, что это происходит из-за того, что /tmp заполняется.
Теперь я хочу отредактировать spark.local.dir
, чтобы он указывал на каталог, в котором есть место.
Как мне установить этот параметр?
Большинство решений, которые я нашел, были предложены. установка его при использовании spark-submit. Однако я не использую spark-submit, а просто запускаю его как скрипт из Jupyter.
Редактировать: я использую Sparkmagic для работы с серверной частью EMR. Я думаю, что spark.local.dir
нужно установить в конфигурации JSON, но я не знаю, как указать его там.
Я пытался добавить его в session_configs
, но это не помогло. т работать.