物理主机重启时,Mesos群集无法恢复

时间:2015-02-04 19:41:47

标签: apache-zookeeper mesos mesosphere

我在3台主机上使用中间圈而不是Ubuntu 14.04,如下所示:

  • 一个使用mesos master
  • 两个与mesos奴隶

一切正常,但重启后所有物理主机的所有预定作业都丢失了。 这是正常的吗?我预计zookeeper将存储当前作业,然后当系统需要重新启动时,所有作业将在主引导后重新安排。

更新 我在同一个节点上使用马拉松和mesos,我用标志 - zk

运行马拉松

3 个答案:

答案 0 :(得分:0)

启用马拉松的--zk--ha后,只要Mesos允许它使用相同的框架ID重新注册,Marathon就应该将其状态存储在ZK中并在重启时恢复它。

但是,您还需要启用Mesos注册表(即使是单个主服务器),以确保Mesos持久保存有关在主故障转移时注册了哪些frameworkId的信息。这可以通过设置--registry=replicated_log(默认值),--quorum=1(因为您只有1个主服务器)和--work_dir=/path/to/registry(存储状态的位置)来实现。

答案 1 :(得分:0)

答案 2 :(得分:0)

虽然您找到了解决方案,但我想对此问题进行更多解释:)

在官方文件中:http://mesos.apache.org/documentation/latest/slave-recovery/

  

请注意,如果从站上的操作系统重新启动,则全部   在主机上运行的执行程序和任务被杀死,而不是   主机重新启动时自动重启。

所以Mesos上的所有框架都将在重启后被杀死。重新启动框架的一种方法是在Marathon上运行所有框架,它将管理其他框架并在需要时重新启动它们。

然而,当你杀死Marathon时,你需要自动重启。在您提到的digitialocean链接中,Marathon在init.d中安装了脚本,因此可以在重新启动后重新启动。否则,如果您通过源代码安装了Marathon,则可以使用supervisord等工具来监控Marathon。