执行者在Yarn上运行Spark作业时丢失

时间:2017-12-19 13:20:43

标签: scala apache-spark

我正在尝试通过spark job处理由超过1000列组成的分区Hive数据集。我面临的问题是增加记录数量并在纱线群集上运行它,我的执行者逐个丢失。我试图为每个分区处理大约5GB的数据。

spark-submit --class org.testJob.Trigger \
    ${MODULE_HOME}/lib/job.jar \
    --num-executors 17 --executor-cores 10  --driver-memory 52g \
    "${JSON_FILE}" \  
    --executor-memory 52g --conf spark.yarn.executor.memoryOverhead=3000

我不确定它是否是火花作业调整问题,而且我的作业在运行较少数量的记录时运行良好。

0 个答案:

没有答案