我在独立模式下在群集上使用Spark。
我目前正在开发Spark Streaming应用程序。我已经为系统添加了检查点,以便处理主进程突然失败,我发现它运行良好。
我的问题是:如果整个节点崩溃(电源故障,硬件错误等)会发生什么,是否有办法自动识别集群中的故障节点,如果是,则在同一台计算机上重新启动它们(或重新启动它们)不同的机器而不是)
我已经查看了monit,但它似乎在特定的计算机上运行并重新启动失败的进程,而我需要在节点上执行相同的操作。为了清楚起见,我不介意重启操作需要一点时间,但我希望它能自动发生
有没有办法做到这一点?
提前致谢
答案 0 :(得分:2)
Spark Standalone对High-Availability有一些支持,如in the official documentation所述,至少对于主节点而言。
当一个工作节点死亡时,Spark将在其他节点上调度作业,这些作用或多或少也适用于Spark Streaming。
除此之外,您还需要一些集群管理和监控工具。