应用错误收集

我们现在正在研究如何实现Flink的高可用性，以及在所有DC都关闭时在灾难情况下也支持自动恢复。我们有通常要完成工作的DC1，和有更远的DC2，我们希望工作只有在DC1断开时才能去那里。

我们研究了两种选择，并且很高兴听到反馈对实现此目标的另一种方法的建议：

两个数据中心上的两个单独的Zookeeper集群。仅DC1上的群集正在运行，并且在脱机过程中将状态复制到DC2。为了实现自动恢复，我们需要使用某种看门狗来检查DC1的可用性，如果它关闭，则会启动DC2（如果DC2处于关闭状态，则稍后再启动）。有推荐的工具吗？
Zookeeper“拉伸群集”跨数据中心– DC1上有2个节点，DC2上有2个节点，一个观察者节点。另外，请在DC1上链接集群jobmabnager1，在DC2上链接jobmanager2。这样，当DC1断开时，动物园管理员将自动注意到这一点，并将工作转移到DC2上的jobmanager2。但是，我们希望动物园管理员领导者和flink工作经理领导者（主要的）来自DC1 –除非停机。有没有办法做到这一点？

感谢和问候，

Tovi