升级版本时火花随机播放磁盘溢出增加

时间:2019-07-17 13:19:25

标签: apache-spark pyspark apache-spark-2.3

从Spark 2.3升级到Spark 2.4.3时,我发现其中一个阶段产生的随机磁盘溢出量增加了20-30%。

在两种环境中都将执行相同的代码。

两种环境下的所有配置都相同

1 个答案:

答案 0 :(得分:0)

在2.4.3和2.3.0上都运行.explain(false)。另外转储在两个上使用的配置。在这些版本中,优化规则的方式已发生更改。您还在哪里火花?有一个肮脏的秘密,许多火花供应商一直在定制和改进引擎盖下的火花。我怀疑发生的事情比您想象的要多。