我的问题基于运行Zookeeper实例的计算机在操作系统修补中遇到的问题。
在rolling manner
中重新启动Zookeeper实例(法定数量3)时,Chronos会在其中一台zk服务器停机时立即停止调度作业。很明显,在此期间,人们可以看到Mesos Web ui上未调度作业。
需要重新启动每个zk实例,然后由Chronos领导者重新启动以解决该问题。但是,我不明白的是:
1.由于存在多个zk实例,为什么在首先关闭一个zk实例时chronos和zookeeper之间会发生通信故障?
2. mesos / zookeeper是否有建议的修复程序/配置来调查此问题?
谢谢,任何建议都会有所帮助!