标签: apache-flink flink-streaming
我们在具有两个作业管理器和三个任务管理器的5节点Flink集群上运行Flink。
最近,我们面临着这样的问题,即每天大约三个时间,所有三个任务管理器都被杀死,使可用任务插槽的数量为0,从而导致该集群上运行的所有作业失败。唯一的解决方法是手动重新启动任务管理器。
所以我想知道一些导致任务管理器崩溃的典型原因。并且,如果有一种方法可以自动将其备份,而无需人工干预。
其他信息:集群上运行的作业从Kafka读取数据,并将数据写入Kafka / Cassandra。