主人死后回来时,Spark工人没有加入Master

时间:2017-04-06 00:46:18

标签: apache-spark spark-streaming apache-spark-standalone

我想知道工人是多久经常主人检查师父的活力?或者是主人(资源经理)是否会让工人检查他们的生活状态以及是否有任何工人死于产卵?或者两者兼而有之?

一些信息: 独立群集 1大师 - 8核12Gb 32名工人 - 每个8个核心和8个Gb

我的主要问题 - 发生了什么:

M大师 - 与32名工人一起跑步 工人1和2在03:55:00死亡 - 所以现在集群是30名工人

工人1'在03:55:12.000 AM出现 - 它与M相连 工人2'在03:55:16:00 AM出现 - 它连接到M

M大师于03:56 AM去世 上午03:56:30,新的主人NM'出现 工人1'和2' - 不要连接到NM 剩余的30名工人连接到NM。

所以NM现在有30名工人。

我想知道为什么这两个人不会连接到新的主NM,即使M大师肯定已经死了。

PS:我有一个针对Master的LB设置,这意味着每当一个新的主人进入LB时将开始指向新的。

1 个答案:

答案 0 :(得分:1)

负载均衡器在这里无法解决您的问题。要让Spark工作人员识别新的主服务器,您必须在高可用性模式下配置Spark。 Spark standalone支持两种HA配置:

  • 使用ZooKeeper的待机大师。
  • 使用文件系统进行节点恢复。

后一种解决方案要简单得多,但需要一个可靠的分布式文件系统来存储spark.deploy.recoveryDirectory,除非你当然在同一节点上恢复master。

可以使用spark.deploy.recoveryMode属性(NONE by default)配置恢复模式,该属性应分别设置为ZOOKEEPERFILESYSTEM以进行备用和节点恢复。

更多详情可在High Availability文档中找到。

相关:What happens when Spark master fails?