我无法了解如何阅读Spark SQL的onDebugString输出。 我不明白
以下是两种不同数据库格式的相同查询的toDebugString输出的链接。
Avro http://pastebin.com/BPwwfdzz
Parquet http://pastebin.com/pZNfCHPc
答案 0 :(得分:1)
一个计划节点,除了关于其子节点的输出之外什么都不做。用来调味 (希望在结构上等效)树从不同的优化序列到已经 解决了树。
大多数操作都说自己喜欢过滤或交换,但有时知道差异很重要:ShuffledHashJoin vs BroadcastHashJoin。在我看来,为什么解释是有帮助的。
此外,可以打印带有详细信息的说明(不仅仅是物理计划),只需调用 explain(true)。