我正在尝试创建提交的spark应用程序的状态图。当我的申请被视为失败时,我就输了。
答案 0 :(得分:1)
这个阶段非常重要,因为当谈到大数据时,Spark非常棒,但让我们面对它,我们还没有解决问题!
当一个任务/作业失败时,Spark会重新启动它(回想一下,主要抽象Spark提供的RDD是弹性分布式数据集,这不是我们在这里寻找的,但它会给出直觉)。
我使用Spark 1.6.2,当我的群集标记为FAILED时,我的群集会重新启动作业/任务3次。
例如,我最近的一项工作必须重新开始整个阶段:
在群集/应用程序中,可以看到尝试ID,此处应用程序处于第3次也是最后一次尝试:
如果该尝试被标记为 FAILED (无论出于何种原因,例如内存不足,错误的DNS,GC分配内存,磁盘发生故障,节点都没有响应4次心跳(可能是()),然后Spark重新启动这项工作。