我想知道工人是多久经常主人检查师父的活力?或者是主人(资源经理)是否会让工人检查他们的生活状态以及是否有任何工人死于产卵?或者两者兼而有之?
一些信息: 独立群集 1大师 - 8核12Gb 32名工人 - 每个8个核心和8个Gb
我的主要问题 - 发生了什么:
M大师 - 与32名工人一起跑步 工人1和2在03:55:00死亡 - 所以现在集群是30名工人
工人1'在03:55:12.000 AM出现 - 它与M相连 工人2'在03:55:16:00 AM出现 - 它连接到M
所以NM现在有30名工人。
我想知道为什么这两个人不会连接到新的主NM,即使M大师肯定已经死了。
PS:我有一个针对Master的LB设置,这意味着每当一个新的主人进入LB时将开始指向新的。
答案 0 :(得分:1)
负载均衡器在这里无法解决您的问题。要让Spark工作人员识别新的主服务器,您必须在高可用性模式下配置Spark。 Spark standalone支持两种HA配置:
后一种解决方案要简单得多,但需要一个可靠的分布式文件系统来存储spark.deploy.recoveryDirectory
,除非你当然在同一节点上恢复master。
可以使用spark.deploy.recoveryMode
属性(NONE
by default)配置恢复模式,该属性应分别设置为ZOOKEEPER
和FILESYSTEM
以进行备用和节点恢复。
更多详情可在High Availability文档中找到。