火花应用状态中FAILED和ERROR之间的区别是什么

时间:2016-08-26 17:54:08

标签: apache-spark driver scheduling distributed-computing bigdata

我正在尝试创建提交的spark应用程序的状态图。当我的申请被视为失败时,我就输了。

各州都在这里:https://github.com/apache/spark/blob/d6dc12ef0146ae409834c78737c116050961f350/core/src/main/scala/org/apache/spark/deploy/master/DriverState.scala

enter image description here

1 个答案:

答案 0 :(得分:1)

这个阶段非常重要,因为当谈到大数据时,Spark非常棒,但让我们面对它,我们还没有解决问题!

当一个任务/作业失败时,Spark会重新启动它(回想一下,主要抽象Spark提供的RDD是弹性分布式数据集,这不是我们在这里寻找的,但它会给出直觉)。

我使用Spark 1.6.2,当我的群集标记为FAILED时,我的群集会重新启动作业/任务3次。

例如,我最近的一项工作必须重新开始整个阶段:

enter image description here

在群集/应用程序中,可以看到尝试ID,此处应用程序处于第3次也是最后一次尝试:

enter image description here

如果该尝试被标记为 FAILED (无论出于何种原因,例如内存不足,错误的DNS,GC分配内存,磁盘发生故障,节点都没有响应4次心跳(可能是()),然后Spark重新启动这项工作。