Question

我正在使用以下配置在AWS yarn集群上运行flink流作业

主节点-1，核心节点-1，任务节点-3

我启用了

jobmanager.execution.failover-strategy: region

由于我的一个任务节点出现故障并尝试在区域级别（在我的情况下是在任务节点级别）重新启动，因此我启用了重启策略为fixedDelayrestart，尝试了5次5分钟的延迟，并且禁用了我的检查点。

Reference Image

如果您看到该图像，则重新启动的次数超过了预期。

有人可以帮助我理解为什么它会这样吗？

Answer 1

文档中有关于“重新启动管道区域故障转移策略” [1]的部分。最重要的是，如果您有一个流作业，并且该作业的操作员对流进行了物理分区，例如<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script> <select name="age" class="age"> <option >select</8> <option value="8">8</8> <option value="9">9</8> <option value="10">10</8> <option value="11">11</8> </select> <select name="subject" class="subject"> <option value="English">English</8> <option value="Maths">Maths</8> <option value="Science">Science</8> </select> <select name="location" class="location"> <option value="One">Location One</8> <option value="Two">Location Two</8> <option value="Three">Location Three</8> </select>，则所有任务最终将位于同一区域，因此所有任务将整体重新启动。对于批处理作业，您需要将keyBy [2]配置为ExecutionMode或BATCH。

[1] https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/task_failure_recovery.html#restart-pipelined-region-failover-strategy

[2] https://ci.apache.org/projects/flink/flink-docs-release-1.9/api/java/org/apache/flink/api/common/ExecutionMode.html

Flink Yarn在任务失败时无限重启

1 个答案: