我一直在使用以下设置测试Master / Worker集群:
我正在通过手动关闭“Active”主节点来测试Masters的故障转移。在Workers没有处理任务的场景中,故障转移工作正常。 “非活动”主节点确实将另一个节点检测为无法访问,最终将启动它的主节点。
但如果工人们很忙,那么故障转移就不会完全奏效。 “非活动”主节点确实将另一个节点检测为无法访问和隔离,如下面的消息所示,但节点永远不会启动主节点。
2014-07-23 23:52:31,777 INFO [JobRunner-akka.actor.default-dispatcher-17]隔离地址[akka.tcp://JobRunner@12.3.201.135:40000]仍无法访问或尚未访问已重新启动。保持隔离状态。
任何人都有任何想法为什么会发生这种情况以及是否有解决方案?
感谢。 问候。
答案 0 :(得分:1)
最后将主节点放在他们自己的服务器上(与Workers分开)工作。
答案 1 :(得分:0)
您使用的是哪个版本的Akka?最近心跳优先级有了改进 - 请升级到2.3.4
并检查。