如何在Spark Streaming中自动重启失败的节点?

时间:2015-11-09 12:18:30

标签: apache-spark spark-streaming high-availability monit fault-tolerance

我在独立模式下在群集上使用Spark。

我目前正在开发Spark Streaming应用程序。我已经为系统添加了检查点,以便处理主进程突然失败,我发现它运行良好。

我的问题是:如果整个节点崩溃(电源故障,硬件错误等)会发生什么,是否有办法自动识别集群中的故障节点,如果是,则在同一台计算机上重新启动它们(或重新启动它们)不同的机器而不是)

我已经查看了monit,但它似乎在特定的计算机上运行并重新启动失败的进程,而我需要在节点上执行相同的操作。为了清楚起见,我不介意重启操作需要一点时间,但我希望它能自动发生

有没有办法做到这一点?

提前致谢

1 个答案:

答案 0 :(得分:2)

Spark Standalone对High-Availability有一些支持,如in the official documentation所述,至少对于主节点而言。

当一个工作节点死亡时,Spark将在其他节点上调度作业,这些作用或多或少也适用于Spark Streaming。

除此之外,您还需要一些集群管理和监控工具。