我正在尝试通过spark job处理由超过1000列组成的分区Hive数据集。我面临的问题是增加记录数量并在纱线群集上运行它,我的执行者逐个丢失。我试图为每个分区处理大约5GB的数据。
spark-submit --class org.testJob.Trigger \
${MODULE_HOME}/lib/job.jar \
--num-executors 17 --executor-cores 10 --driver-memory 52g \
"${JSON_FILE}" \
--executor-memory 52g --conf spark.yarn.executor.memoryOverhead=3000
我不确定它是否是火花作业调整问题,而且我的作业在运行较少数量的记录时运行良好。