应用错误收集

我在使用spark 2.0运行pyspark应用程序时注意到了奇怪的行为。在我的脚本涉及reduceByKey（以及随后的shuffle）操作的第一步中，我观察到shuffle写入的数量大致符合我的预期，但是发生的溢出比我预期的要多得多。我试图通过将每个执行程序分配的内存量增加到原始数量的8倍来避免这些溢出，但基本上没有看到溢出量的差异。奇怪的是，我也看到在此阶段运行时，几乎没有使用任何已分配的存储内存（如火花网页UI中的执行程序选项卡中所报告的那样）。

我之前看过这个问题，这让我相信增加执行记忆可能有助于避免泄漏：How to optimize shuffle spill in Apache Spark application 。这让我相信一些硬限制会导致溢出，而不是spark.shuffle.memoryFraction参数。是否存在这样的硬限制，可能在HDFS参数中？否则，除了增加执行程序内存之外，还可以采取哪些措施来避免溢出？

非常感谢，R

Tasks view inside reduce job showing spills Executors tab showing low memory use job DAG

火花溢出独立于分配的执行者记忆

1 个答案: