我有两个问题:
无需添加任何额外代码来打印提交的火花作业的逻辑和物理计划,是否有办法查看群集上运行的火花作业的物理和逻辑计划。
是否可以修改群集上正在运行的spark作业的执行计划dyanamicaly,以获得更好的性能。
请分享您的想法。
提前致谢。
答案 0 :(得分:1)
两者都是物理
val df: DataFrame = ???
df.queryExecution.executedPlan
可以使用queryExecution
属性访问逻辑计划。
df.queryExecution.logical
是的,您可以实施自己的优化程序规则。这个功能一般没有正式记录,但有一些外部资源可用: