应用错误收集

我们在具有两个作业管理器和三个任务管理器的5节点Flink集群上运行Flink。

最近，我们面临着这样的问题，即每天大约三个时间，所有三个任务管理器都被杀死，使可用任务插槽的数量为0，从而导致该集群上运行的所有作业失败。唯一的解决方法是手动重新启动任务管理器。

所以我想知道一些导致任务管理器崩溃的典型原因。并且，如果有一种方法可以自动将其备份，而无需人工干预。

其他信息：集群上运行的作业从Kafka读取数据，并将数据写入Kafka / Cassandra。