验证StreamingFileSink数据完整性

时间:2019-10-16 01:29:57

标签: amazon-s3 apache-kafka apache-flink flink-streaming

我正在使用Kafka源连接器通过StreamingFileSink将数据流传输到S3。 尽管Flink声称实现了一次精确的交付语义,但我还是想对自己的Flink部署进行完整性检查来验证这一点。 (例如,验证通过保存点手动停止/重新启动执行不会导致数据丢失)

除了将Kafka分区/偏移信息序列化为S3对象,读取这些对象并进行验证之外,我想不出一种简单的方法来检查数据完整性

  • 偏移量形成分区的连续序列(无“孔”)
  • 没有重复的偏移量

这看起来很丑陋,我对更好的方法感兴趣。

0 个答案:

没有答案