我有一个Flink HA群集,其中包含2个作业管理器和3个节点的zookeeper仲裁。
我失败的职业经理在我杀了之后没有得到恢复。 以下是我没有这样做以及我观察到的内容:
我在这里是否遗漏了某些内容,或者是HA无法处理此类故障转移(flink实例直接被杀死)?
谢谢!
答案 0 :(得分:0)
独立模式下的HA完全按照您的描述工作,这意味着当前领导者失败时,备用作业管理员接管。
独立模式下的Jobmanager只是一个java进程,在关闭后无法自行生成,因此您必须手动生成它。您还可以考虑其他一些部署模式,例如YARN / Mesos / Kubernetes确保重新启动流程。