标签: java apache-spark rdd
我们说我的火花应用程序由 2个工作组成。
Job-1:由一个阶段组成,阶段的结果是持久的
rdd1.persist(DISK_ONLY)
Job-2:使用计算出的rdd1。但是,当我查看Execution DAG时,我发现在作业1中导致rdd1的所有步骤都表示为蓝色框。虽然实际的rdd颜色为绿色。
这是否意味着实际上跳过了导致rdd的操作?
答案 0 :(得分:0)
否 这实际上是SparkUI的缺点。它只会计算rdd1之后的步数。尽管它将以蓝色显示整个阶段。