应用错误收集

时间：2016-08-26 17:54:08

标签： apache-spark driver scheduling distributed-computing bigdata

我正在尝试创建提交的spark应用程序的状态图。当我的申请被视为失败时，我就输了。

答案 0 :(得分：1)

这个阶段非常重要，因为当谈到大数据时，Spark非常棒，但让我们面对它，我们还没有解决问题！

当一个任务/作业失败时，Spark会重新启动它（回想一下，主要抽象Spark提供的RDD是弹性分布式数据集，这不是我们在这里寻找的，但它会给出直觉）。

我使用Spark 1.6.2，当我的群集标记为FAILED时，我的群集会重新启动作业/任务3次。

例如，我最近的一项工作必须重新开始整个阶段：

在群集/应用程序中，可以看到尝试ID，此处应用程序处于第3次也是最后一次尝试：

如果该尝试被标记为 FAILED （无论出于何种原因，例如内存不足，错误的DNS，GC分配内存，磁盘发生故障，节点都没有响应4次心跳（可能是（）），然后Spark重新启动这项工作。