JobManager无法在HA模式下恢复

时间:2018-02-01 06:19:14

标签: apache-flink

我有一个Flink HA群集,其中包含2个作业管理器和3个节点的zookeeper仲裁。

我失败的职业经理在我杀了之后没有得到恢复。 以下是我没有这样做以及我观察到的内容:

  1. 我使用start-cluster.sh
  2. 启动了HA群集
  3. 工作经理A当选。
  4. 我用kill命令杀了一个职业经理A.
  5. 工作经理B当选。
  6. 工作经理B工作得很好。
  7. 但是从那时起,工作经理A从未恢复过来。
  8. 我在这里是否遗漏了某些内容,或者是HA无法处理此类故障转移(flink实例直接被杀死)?

    谢谢!

1 个答案:

答案 0 :(得分:0)

独立模式下的HA完全按照您的描述工作,这意味着当前领导者失败时,备用作业管理员接管。

独立模式下的Jobmanager只是一个java进程,在关闭后无法自行生成,因此您必须手动生成它。您还可以考虑其他一些部署模式,例如YARN / Mesos / Kubernetes确保重新启动流程。