为什么检查点协调员需要很长时间才能完成

时间:2019-07-10 14:28:47

标签: apache-flink

我们是POC flink(1.8),用于实时处理数据,并使用全局检查点(S3)和本地检查点(EBS)在EKS上部署群集。我们的应用程序正在使用Kinesis的数据。

对于我的测试,例如,我使用检查点间隔5分钟。并至少暂停2分钟。

我们看到的问题是: 似乎flink检查点过程将闲置3-4分钟,然后作业经理才能获得完整的通知。

这是作业管理器的一些日志记录:

2019-07-10 11:59:03,893 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Triggering checkpoint 4 @ 1562759941082 for job e7a97014f5799458f1c656135712813d.
2019-07-10 12:05:01,836 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Completed checkpoint 4 for job e7a97014f5799458f1c656135712813d (22387207650 bytes in 58645 ms).

根据我对上述记录的了解,completedCheckpoint(CheckpointCoordinator)对象已在58645毫秒内完成,但整个检查点过程耗时约6分钟。

此日志记录用于4.检查点,但是前三个检查点已按时完成。

0 个答案:

没有答案