我正在使用以下配置在AWS yarn集群上运行flink流作业
主节点-1,核心节点-1,任务节点-3
我启用了
jobmanager.execution.failover-strategy: region
由于我的一个任务节点出现故障并尝试在区域级别(在我的情况下是在任务节点级别)重新启动,因此我启用了重启策略为fixedDelayrestart,尝试了5次5分钟的延迟,并且禁用了我的检查点。>
如果您看到该图像,则重新启动的次数超过了预期。
有人可以帮助我理解为什么它会这样吗?
答案 0 :(得分:1)
文档中有关于“重新启动管道区域故障转移策略” [1]的部分。最重要的是,如果您有一个流作业,并且该作业的操作员对流进行了物理分区,例如<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/3.3.1/jquery.min.js"></script>
<select name="age" class="age">
<option >select</8>
<option value="8">8</8>
<option value="9">9</8>
<option value="10">10</8>
<option value="11">11</8>
</select>
<select name="subject" class="subject">
<option value="English">English</8>
<option value="Maths">Maths</8>
<option value="Science">Science</8>
</select>
<select name="location" class="location">
<option value="One">Location One</8>
<option value="Two">Location Two</8>
<option value="Three">Location Three</8>
</select>
,则所有任务最终将位于同一区域,因此所有任务将整体重新启动。对于批处理作业,您需要将keyBy
[2]配置为ExecutionMode
或BATCH
。