SPARK - 为什么火花作业持续时间不等于每个阶段持续时间的总和?

时间:2016-11-07 13:22:16

标签: apache-spark pyspark

火花作业包括几个阶段的集合......

我原以为作业的执行时间与每个阶段的持续时间总和相等或至少相似。

但是,我的差异很大:1,3分钟X 3,2秒

这是正常/可接受的吗?

enter image description here

1 个答案:

答案 0 :(得分:2)

简而言之,作业执行时间是挂钟时间

这意味着在没有实际计算阶段的情况下仍然可以测量时间:集群可能忙于在工作阶段之间做任何其他事情

这可能也是相反的方向:当并行执行多个阶段时,阶段执行时间的总和可能大于作业执行时间。