我们是POC flink(1.8),用于实时处理数据,并使用全局检查点(S3)和本地检查点(EBS)在EKS上部署群集。我们的应用程序正在使用Kinesis的数据。
对于我的测试,例如,我使用检查点间隔5分钟。并至少暂停2分钟。
我们看到的问题是: 似乎flink检查点过程将闲置3-4分钟,然后作业经理才能获得完整的通知。
这是作业管理器的一些日志记录:
2019-07-10 11:59:03,893 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 4 @ 1562759941082 for job e7a97014f5799458f1c656135712813d.
2019-07-10 12:05:01,836 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed checkpoint 4 for job e7a97014f5799458f1c656135712813d (22387207650 bytes in 58645 ms).
根据我对上述记录的了解,completedCheckpoint
(CheckpointCoordinator)对象已在58645毫秒内完成,但整个检查点过程耗时约6分钟。
此日志记录用于4.检查点,但是前三个检查点已按时完成。