相同Spark操作的不同说明计划

时间:2018-10-18 11:32:26

标签: apache-spark pyspark apache-spark-sql

我正面临着一种情况,我在火花代码中对完全相同的数据帧执行完全相同的操作的计划有所不同。

我知道这是因为spark在代码上进行了多次迭代,并尝试以不同的方式优化代码,并且其迭代次数由参数spark.sql.optimizer.maxIterations定义。

我的问题是,我想执行一个非常繁重的操作,而优化程序有时做得非常好,有时却做得很差,这导致在运行查询的查询之间性能几乎有30%的差异。相同的数据集。

鉴于此,我的问题是

  1. 是否有可能以某种方式冻结操作的解释计划?
  2. spark.sql.optimizer.maxIterations提高到500似乎也无法解决。甚至使用此参数吗?
  3. 还有其他方法吗?

0 个答案:

没有答案