当Taskmanager杀死/丢失时运行Flink Job

时间:2017-10-01 16:44:10

标签: kubernetes scaling apache-flink

我想要实现的是Flink集群,它会在资源中断时自动重新分配以运行作业,例如:Kubernetes pod缩小,现有任务管理器丢失。

我使用Flink集群测试:

  • 一个Jobmanager,两个任务管理器(每个2个任务槽),
  • 重新启动Strategies-fixedDelayRestart(2,2000),
  • 检查点和状态配置为HDFS。
  • 这项工作以4并行性开始,利用了所有可用的插槽。
  • 此群集稍后将在Kubernetes之上运行,并通过自动缩放进行管理。

场景: 当我杀死其中一个任务管理器时,Flink集群将以1 JM和1 TM运行,然后作业将重新启动,并最终失败,因为它将从之前的状态(4并行性)开始,并从Flink集群投诉不可用的资源。 / p>

我是否可以通过动态重新分配可用资源而不是使用以前的状态来重新启动作业?

感谢有人可以对此有所了解。

0 个答案:

没有答案