应用错误收集

我有一个大型的火花工作处理大约900亿条记录。一切运行正常，直到它到达作业的重新分区部分，以输出到最终数据集。我目前正在从5600个任务重新分区到512个。这个阶段OOM是最后2个任务。我不明白的是512个文件之一的输出只有256 MB未压缩。为什么在这个舞台上8G的内存不足？

在最终写入之前，有大约60个阶段（都在同一个工作中发生）。在早期上游强制执行（通过计数）会消除一些开销吗？

在100 m4.xlarge上运行，数据处于镶木地板