应用错误收集

时间：2015-11-09 12:18:30

标签： apache-spark spark-streaming high-availability monit fault-tolerance

我在独立模式下在群集上使用Spark。

我目前正在开发Spark Streaming应用程序。我已经为系统添加了检查点，以便处理主进程突然失败，我发现它运行良好。

我的问题是：如果整个节点崩溃（电源故障，硬件错误等）会发生什么，是否有办法自动识别集群中的故障节点，如果是，则在同一台计算机上重新启动它们（或重新启动它们）不同的机器而不是）

我已经查看了monit，但它似乎在特定的计算机上运行并重新启动失败的进程，而我需要在节点上执行相同的操作。为了清楚起见，我不介意重启操作需要一点时间，但我希望它能自动发生

有没有办法做到这一点？

提前致谢

答案 0 :(得分：2)

Spark Standalone对High-Availability有一些支持，如in the official documentation所述，至少对于主节点而言。

当一个工作节点死亡时，Spark将在其他节点上调度作业，这些作用或多或少也适用于Spark Streaming。

除此之外，您还需要一些集群管理和监控工具。