Истекло время тактового сигнала исполнителя: ошибка в задании Spark

Я получаю сообщение об ошибке ниже в Spark Job с использованием программирования Python. В сообщении об ошибке написано: «Истекло время сердцебиения исполнителя». Журнал ошибок прилагается ниже:

Py4JJavaError: An error occurred while calling o152.parquet.
: org.apache.spark.SparkException: Job aborted.
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:224)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:154)
    at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult$lzycompute(commands.scala:104)
    at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:102)
    at org.apache.spark.sql.execution.command.DataWritingCommandExec.doExecute(commands.scala:122)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
    at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
    at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
    at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:80)
    at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:80)
    at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:656)
    at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:656)
    at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:77)
    at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:656)
    at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:273)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:267)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:225)
    at org.apache.spark.sql.DataFrameWriter.parquet(DataFrameWriter.scala:549)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:282)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:238)
    at java.lang.Thread.run(Thread.java:748)

Ниже приведены ошибки:

Причина: org.apache.spark.SparkException: задание прервано из-за сбоя этапа: задача 38 на этапе 9.0 не удалась 4 раза, последний сбой: потерянная задача 38.3 на этапе 9.0 (TID 532, alp-pos-005. unix.cosng.net, исполнитель 24): ExecutorLostFailure (исполнитель 24 завершил работу из-за одной из запущенных задач) Причина: истекло время сердцебиения исполнителя через 154863 мс.

Driver stacktrace:
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1651)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1639)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1638)
    at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
    at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1638)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:831)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:831)
    at scala.Option.foreach(Option.scala:257)
    at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:831)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1872)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1821)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1810)
    at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
    at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:642)
    at org.apache.spark.SparkContext.runJob(SparkContext.scala:2034)
    at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:194)
    ... 31 more

После сохранения spark.network.timeout 10000000 появляется следующая ошибка.

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 59 in stage 19.0 failed 4 times, most recent failure: Lost task 59.3 in stage 19.0 (TID 3614, alp-pos-004.unix.cosng.net, executor 29): ExecutorLostFailure (executor 29 exited caused by one of the running tasks) Reason: Container marked as failed: container_e150_1579619385046_0042_01_000038 on host: alp-pos-004.unix.cosng.net. Exit status: 143. Diagnostics: [2020-01-23 12:42:08.482]Container killed on request. Exit code is 143
[2020-01-23 12:42:08.482]Container exited with a non-zero exit code 143. 
[2020-01-23 12:42:08.482]Killed by external signal

Любая помощь будет очень признательна на этом этапе.

Спасибо gnish


person gnish9    schedule 20.01.2020    source источник


Ответы (1)


Обычно проблема, связанная с этими случаями, связана с памятью, но один простой способ решить проблему - увеличить spark.network.timeout. Это помогает, но это не долгосрочное решение.

Так что просто попробуйте это:

spark-submit --conf spark.network.timeout 10000000 python_script.py

person Thiago Baldim    schedule 20.01.2020
comment
Я использую pyspark на zeppelin. Ничего страшного, если я добавлю это свойство в файл свойств zeppelin? - person gnish9; 21.01.2020
comment
Да, вы можете использовать это, чтобы настроить конфигурацию тайм-аута для искры по умолчанию. Не рекомендуется делать это для каждого задания, потому что это может скрыть будущие проблемы, с которыми вы можете столкнуться во время выполнения Spark. - person Thiago Baldim; 22.01.2020
comment
Получил очередную ошибку. Пожалуйста, проверьте выше. [2020-01-23 12: 42: 08.482] Контейнер вышел с ненулевым кодом выхода 143. [2020-01-23 12: 42: 08.482] Прервано внешним сигналом - person gnish9; 23.01.2020