为什么YARN上的Flink HA群集恢复的次数超过了最大尝试次数?

时间:2019-05-20 16:45:00

标签: yarn apache-flink

使用Flink 1.7.2和YARN 2.8,我正在测试Flink群集的恢复功能,并且Flink High Availability群集的恢复超出了我的环境中的最大尝试时间。

我将YARN的配置属性“ yarn.resourcemanager.am.max-attempts”设置为2,将Flink的配置属性“ yarn.application-attempts”设置为5。

在1日,我将具有非HA设置的Flink会话群集部署到YARN,并使用kill命令停止了JobManager。 两次停止JobManager后,Flink群集进入FAILED状态。 我认为,“ yarn.resourcemanager.am.max-attempts”的值会影响该行为。

但是,当我部署HA Flink Cluster时,即使我停止JobManager超过5次,Flink群集也已恢复。 YARN增加应用程序的尝试次数,并重复恢复Flink群集和管道作业。 我想知道为什么Flink群集可以比“ yarn.resourcemanager.am.max-attempts”和“ yarn.application-attempts”值更多地恢复。

这是预期的行为吗?

这是我的HA群集的flink-conf.yaml:

state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints

high-availability: zookeeper
high-availability.zookeeper.quorum: zookeeper1:2181,zookeeper2:2181,zookeeper3:2181
high-availability.zookeeper.path.root: /flink
high-availability.storageDir: hdfs:///user/kmoti/.flink/recovery
yarn.application-attempts: 5

这是NON HA群集的信息:

state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints
yarn.application-attempts: 5

有人知道Flink HA群集中的尝试时间如何计算吗?

0 个答案:

没有答案