在HDinsight上运行火花时故障恢复

时间:2015-04-07 18:34:17

标签: azure apache-spark master-slave

我试图按照http://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-spark-install/

中的步骤在Azure HDinsight上运行Apache spark

我想知道我是否必须自己管理主/从故障恢复,或者HDinsight会照顾它。

1 个答案:

答案 0 :(得分:0)

我还在Azure HDInsight上使用Spark Streaming应用程序。在Spark作业中,Spark和Yarn可以为Master和Slave提供一些Fault-Tolerance。

  1. 但有时,驱动程序和工作程序也会因用户代码错误,火花内部问题和Azure HDInsight问题而崩溃。因此,我们需要制作我们自己的监控/守护进程,并维持恢复
  2. 对于 Streaming 方案,情况更难实现。作为需要保持7 * 24运行的Spark Streaming Job,需要考虑如何保持机器的作业恢复重新启动并重新映像