我正面临着一种情况,我在火花代码中对完全相同的数据帧执行完全相同的操作的计划有所不同。
我知道这是因为spark在代码上进行了多次迭代,并尝试以不同的方式优化代码,并且其迭代次数由参数spark.sql.optimizer.maxIterations
定义。
我的问题是,我想执行一个非常繁重的操作,而优化程序有时做得非常好,有时却做得很差,这导致在运行查询的查询之间性能几乎有30%的差异。相同的数据集。
鉴于此,我的问题是
spark.sql.optimizer.maxIterations
提高到500似乎也无法解决。甚至使用此参数吗?