应用错误收集

时间：2018-02-01 06:19:14

标签： apache-flink

我有一个Flink HA群集，其中包含2个作业管理器和3个节点的zookeeper仲裁。

我失败的职业经理在我杀了之后没有得到恢复。以下是我没有这样做以及我观察到的内容：

我在这里是否遗漏了某些内容，或者是HA无法处理此类故障转移（flink实例直接被杀死）？

谢谢！

答案 0 :(得分：0)

独立模式下的HA完全按照您的描述工作，这意味着当前领导者失败时，备用作业管理员接管。

独立模式下的Jobmanager只是一个java进程，在关闭后无法自行生成，因此您必须手动生成它。您还可以考虑其他一些部署模式，例如YARN / Mesos / Kubernetes确保重新启动流程。