这当然不是一个新话题;例如,这里有一个相关的帖子:
SparkUI for pyspark - corresponding line of code for each stage?
但是到目前为止,我还没有看到一个很好的答案。更具体地说:
在某些工作阶段存在问题,我试图将pyspark代码中令人讨厌的代码片段归零。通常,我会查看DAG并搜索相关的字段名称以找出正在执行的操作。 但是,有时DAG仅包含通用操作名称:
是的,有一个联接,但是我的代码中有数十个联接。
在SQL选项卡上的各种计划中查找RDD编号也不会产生任何结果。那么,我还有什么其他选择?
谢谢