使用Flink 1.7.2和YARN 2.8,我正在测试Flink群集的恢复功能,并且Flink High Availability群集的恢复超出了我的环境中的最大尝试时间。
我将YARN的配置属性“ yarn.resourcemanager.am.max-attempts”设置为2,将Flink的配置属性“ yarn.application-attempts”设置为5。
在1日,我将具有非HA设置的Flink会话群集部署到YARN,并使用kill命令停止了JobManager。 两次停止JobManager后,Flink群集进入FAILED状态。 我认为,“ yarn.resourcemanager.am.max-attempts”的值会影响该行为。
但是,当我部署HA Flink Cluster时,即使我停止JobManager超过5次,Flink群集也已恢复。 YARN增加应用程序的尝试次数,并重复恢复Flink群集和管道作业。 我想知道为什么Flink群集可以比“ yarn.resourcemanager.am.max-attempts”和“ yarn.application-attempts”值更多地恢复。
这是预期的行为吗?
这是我的HA群集的flink-conf.yaml:
state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints
high-availability: zookeeper
high-availability.zookeeper.quorum: zookeeper1:2181,zookeeper2:2181,zookeeper3:2181
high-availability.zookeeper.path.root: /flink
high-availability.storageDir: hdfs:///user/kmoti/.flink/recovery
yarn.application-attempts: 5
这是NON HA群集的信息:
state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints
yarn.application-attempts: 5
有人知道Flink HA群集中的尝试时间如何计算吗?