Flink Yarn在任务失败时无限重启

时间:2019-11-23 04:21:22

标签: apache-flink flink-streaming

我正在使用以下配置在AWS yarn集群上运行flink流作业

主节点-1,核心节点-1,任务节点-3

我启用了

jobmanager.execution.failover-strategy: region

由于我的一个任务节点出现故障并尝试在区域级别(在我的情况下是在任务节点级别)重新启动,因此我启用了重启策略为fixedDelayrestart,尝试了5次5分钟的延迟,并且禁用了我的检查点。

Reference Image

如果您看到该图像,则重新启动的次数超过了预期。

有人可以帮助我理解为什么它会这样吗?

1 个答案:

答案 0 :(得分:1)

文档中有关于“重新启动管道区域故障转移策略” [1]的部分。最重要的是,如果您有一个流作业,并且该作业的操作员对流进行了物理分区,例如<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script> <select name="age" class="age"> <option >select</8> <option value="8">8</8> <option value="9">9</8> <option value="10">10</8> <option value="11">11</8> </select> <select name="subject" class="subject"> <option value="English">English</8> <option value="Maths">Maths</8> <option value="Science">Science</8> </select> <select name="location" class="location"> <option value="One">Location One</8> <option value="Two">Location Two</8> <option value="Three">Location Three</8> </select>,则所有任务最终将位于同一区域,因此所有任务将整体重新启动。对于批处理作业,您需要将keyBy [2]配置为ExecutionModeBATCH

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/task_failure_recovery.html#restart-pipelined-region-failover-strategy

[2] https://ci.apache.org/projects/flink/flink-docs-release-1.9/api/java/org/apache/flink/api/common/ExecutionMode.html