人们如何检测并自动更换死亡的Swarm Manager?
考虑到这一点似乎很重要:"如果群体失去了法定人数,那么群体就无法执行管理任务。"
答案 0 :(得分:1)
您需要使用外部监控解决方案来实现此功能。它不是码头群模式的内置功能。</ p>
实施此解决方案将是非常重要的。首先,请记住,当您提升节点时,您现在可以通过swarm授予其完全管理访问权限,而普通工作人员无法访问该节点,因此请确保您的安全模型可以正常使用此更改。您还需要避免级联故障,其中一个管理器的重载导致其失败,并且自动提升其他节点会导致它们立即失败,直到不再有工作人员,因为现有工作负载被重新分配到越来越少的节点。最后,当您添加新经理时,您需要考虑如何处理对当前失败的经理的引用。如果它恢复,你是否希望它从停止的地方继续,或者你是否想要从群中完全删除它以减少仲裁所需的节点数。
最后要注意的是,当您丢失仲裁时,节点将继续运行已启动的容器。您唯一丢失的是管理和更改该基础架构的能力。因此,我所看到的大多数地方都有3个或5个管理器,具体取决于所需的容错级别,并且经常使管理器成为虚拟的,这样如果发生故障,VM映像可以很容易地在其环境中的其他地方重新启动。 / p>