我正在尝试使用Spark SQL优化一个程序,该程序基本上是一个巨大的SQL查询(像很多情况下的10个表那样联接)。我更习惯于更多面向DF-API的程序,它们确实显示了更好的不同阶段。
它的结构非常好,我或多或少都了解它。但是,我有一个问题,我总是使用Spark UI SQL视图来获取有关优化重点的提示。
但是在这种程序中,Spark UI SQL却什么也没有显示,这是有原因的吗? (或强制显示的方式)。
我希望看到每个联接/扫描及其后的输出行数,等等。。。但是我只看到完整的“ WholeStageCodeGen”,如“解析的逻辑计划”,如800行
我无法显示代码,它具有以下“要点”:
1- Action triggering it, its "show"(20)
3- Takes like 1 hour of execution (few executors yet)
2- has a persist before the show/action.
3- Uses Kudu, Hive and In-memory tables (registered before this query)
4- Has like 700 lines logical plan
是否可以改善那里的跟踪? (也许禁用WholeStageCodegen ?,但这可能会损害性能...)
谢谢!