Apache Spark(2.0.2)任务在重新分区时内存不足

时间:2018-02-13 06:17:59

标签: apache-spark

我有一个大型的火花工作处理大约900亿条记录。一切运行正常,直到它到达作业的重新分区部分,以输出到最终数据集。我目前正在从5600个任务重新分区到512个。这个阶段OOM是最后2个任务。我不明白的是512个文件之一的输出只有256 MB未压缩。为什么在这个舞台上8G的内存不足?

在最终写入之前,有大约60个阶段(都在同一个工作中发生)。在早期上游强制执行(通过计数)会消除一些开销吗?

在100 m4.xlarge上运行,数据处于镶木地板

0 个答案:

没有答案