标签: apache-spark pyspark
spak中是否有任何工具可以帮助理解代码的解释和执行方式。像分析工具或执行计划的细节,以帮助优化代码。
例如,我已经看到最好在连接之前对连接键上的两个数据帧进行分区,以避免额外的混乱。我们怎么能弄明白?
答案 0 :(得分:2)
正如Pushkr所说,通过数据框和数据集,我们可以使用.explain()方法来显示派生,分离和最终的随机播放。
使用RDD,我们可以使用toDebugString来获得相同的结果。 此外,还有依赖关系来指示新的rdd是否来自前一个具有窄或宽依赖性的rdd。