标签: amazon-s3 apache-kafka apache-flink flink-streaming
我正在使用Kafka源连接器通过StreamingFileSink将数据流传输到S3。 尽管Flink声称实现了一次精确的交付语义,但我还是想对自己的Flink部署进行完整性检查来验证这一点。 (例如,验证通过保存点手动停止/重新启动执行不会导致数据丢失)
除了将Kafka分区/偏移信息序列化为S3对象,读取这些对象并进行验证之外,我想不出一种简单的方法来检查数据完整性
这看起来很丑陋,我对更好的方法感兴趣。