Question

使用Flink 1.7.2和YARN 2.8，我正在测试Flink群集的恢复功能，并且Flink High Availability群集的恢复超出了我的环境中的最大尝试时间。

我将YARN的配置属性“ yarn.resourcemanager.am.max-attempts”设置为2，将Flink的配置属性“ yarn.application-attempts”设置为5。

在1日，我将具有非HA设置的Flink会话群集部署到YARN，并使用kill命令停止了JobManager。两次停止JobManager后，Flink群集进入FAILED状态。我认为，“ yarn.resourcemanager.am.max-attempts”的值会影响该行为。

但是，当我部署HA Flink Cluster时，即使我停止JobManager超过5次，Flink群集也已恢复。 YARN增加应用程序的尝试次数，并重复恢复Flink群集和管道作业。我想知道为什么Flink群集可以比“ yarn.resourcemanager.am.max-attempts”和“ yarn.application-attempts”值更多地恢复。

这是预期的行为吗？

这是我的HA群集的flink-conf.yaml：

state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints

high-availability: zookeeper
high-availability.zookeeper.quorum: zookeeper1:2181,zookeeper2:2181,zookeeper3:2181
high-availability.zookeeper.path.root: /flink
high-availability.storageDir: hdfs:///user/kmoti/.flink/recovery
yarn.application-attempts: 5

这是NON HA群集的信息：

state.backend: filesystem
state.checkpoints.dir: hdfs:///user/kmoti/.flink/checkpoints
state.savepoints.dir: hdfs:///user/kmoti/.flink/savepoints
yarn.application-attempts: 5

有人知道Flink HA群集中的尝试时间如何计算吗？

为什么YARN上的Flink HA群集恢复的次数超过了最大尝试次数？

0 个答案: