标签: apache-spark pyspark apache-spark-2.3
从Spark 2.3升级到Spark 2.4.3时,我发现其中一个阶段产生的随机磁盘溢出量增加了20-30%。
在两种环境中都将执行相同的代码。
两种环境下的所有配置都相同
答案 0 :(得分:0)
在2.4.3和2.3.0上都运行.explain(false)。另外转储在两个上使用的配置。在这些版本中,优化规则的方式已发生更改。您还在哪里火花?有一个肮脏的秘密,许多火花供应商一直在定制和改进引擎盖下的火花。我怀疑发生的事情比您想象的要多。