标签: apache-spark
我有一个大型的火花工作处理大约900亿条记录。一切运行正常,直到它到达作业的重新分区部分,以输出到最终数据集。我目前正在从5600个任务重新分区到512个。这个阶段OOM是最后2个任务。我不明白的是512个文件之一的输出只有256 MB未压缩。为什么在这个舞台上8G的内存不足?
在最终写入之前,有大约60个阶段(都在同一个工作中发生)。在早期上游强制执行(通过计数)会消除一些开销吗?
在100 m4.xlarge上运行,数据处于镶木地板