org.apache.spark.SparkException: задание прервано из-за сбоя этапа в pyspark

Извините за дублированный пост. Я снова создаю еще один пост, так как эти посты не могут решить мою проблему. Я запускаю регрессию ML на pyspark 3.0.1. Я запускаю его в кластере с 640 ГБ памяти и 32 рабочими узлами. У меня есть набор данных с 33751 строкой и 63 столбцами. Я пытаюсь подготовить набор данных для регрессии ML. Поэтому я написал следующий код

from pyspark.ml.feature import VectorAssembler, StandardScaler
input_col=[...]
vector_assembler=VectorAssembler(inputCols=input_col,outputCol='ss_feature')
temp_train=vector_assembler.transform(train)
standard_scaler=StandardScaler(inputCol='ss_feature',outputCol='scaled')
train=standard_scaler.fit(temp_train).transform(temp_train)

Но я получаю сообщение об ошибке при выполнении последней строки

org.apache.spark.SparkException: Job aborted due to stage failure: Task 169 in stage 57.0 failed 4 
times, most recent failure: Lost task 169.3 in stage 57.0 (TID 5522, 10.8.64.22, executor 11): 
org.apache.spark.SparkException: Failed to execute user defined 
function(VectorAssembler$$Lambda$6296/1890764576:

Можете ли вы предложить мне, как мне решить эту проблему?


person pysparkLearner    schedule 22.02.2021    source источник
comment
Эй, pysparklearner, не могли бы вы проверить различные версии, которые вы используете, и ваша ошибка связана с несоответствием версий библиотеки spark-mllib с библиотекой spark-core и библиотекой spark-sql. Все они должны быть одной версии. Пожалуйста, проверьте их, потому что я вижу, что проблема связана с определяемой пользователем функцией векторного ассемблера.   -  person itIsNaz    schedule 22.02.2021
comment
Отвечает ли это на ваш вопрос? Ошибка Spark VectorAssembler — PySpark 2.3 — Python   -  person mck    schedule 22.02.2021
comment
у вас могли быть нули во входных столбцах для векторного ассемблера   -  person mck    schedule 22.02.2021
comment
@NassereddineBelghith, какая версия библиотеки spark-mllib, spark-core и spark-sql требуется для запуска?   -  person pysparkLearner    schedule 22.02.2021
comment
@pysparkLearner это не имеет значения, так как spark 2.x он должен быть одинаковым для всех (одна и та же версия для ядра и sql, mllib), однако я советую вам также проверить, что в вашем фрейме данных нет проблем, вы можете сделать это с помощью df.head(1) и посмотрите, правильно ли он читает все столбцы или нет, если у вас есть проблемы с этим, поэтому вам нужно очистить фрейм данных   -  person itIsNaz    schedule 22.02.2021