使用Zookeeper进行自动灾难恢复的高可用性

时间:2018-07-09 12:16:57

标签: apache-flink

我们现在正在研究如何实现Flink的高可用性,以及在所有DC都关闭时在灾难情况下也支持自动恢复。 我们有通常要完成工作的DC1,和有更远的DC2,我们希望工作只有在DC1断开时才能去那里。

我们研究了两种选择,并且很高兴听到反馈对实现此目标的另一种方法的建议:

  • 两个数据中心上的两个单独的Zookeeper集群。 仅DC1上的群集正在运行,并且在脱机过程中将状态复制到DC2。 为了实现自动恢复,我们需要使用某种看门狗来检查DC1的可用性,如果它关闭,则会启动DC2(如果DC2处于关闭状态,则稍后再启动)。 有推荐的工具吗?

  • Zookeeper“拉伸群集”跨数据中心– DC1上有2个节点,DC2上有2个节点,一个观察者节点。 另外,请在DC1上链接集群jobmabnager1,在DC2上链接jobmanager2。 这样,当DC1断开时,动物园管理员将自动注意到这一点,并将工作转移到DC2上的jobmanager2。 但是,我们希望动物园管理员领导者和flink工作经理领导者(主要的)来自DC1 –除非停机。 有没有办法做到这一点?

感谢和问候,

Tovi

0 个答案:

没有答案