我正在探索AWS Kinesis的数据处理要求,用基于流的方法取代旧批量ETL处理。
该项目的关键要求之一是能够在
的情况下重新处理数据这里的情景非常好地记录在卡夫卡 - https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios。
我已经在Kinesis中看到了基于时间戳的ShardIterator,我认为可以使用Kinesis API构建Kafka之类的resetter-tool,但如果已经存在这样的东西会很棒。即使它没有,也可以向那些解决过类似问题的人学习。
那么,有没有人知道在Kinesis中可以使用的任何现有资源,模式和工具?
答案 0 :(得分:1)
我遇到了想要重新处理kinesis处理记录的场景,我使用Kinesis-VCR重新处理了kinesis生成的记录。
Kinesis-VCR记录了kinesis流,并维护了在给定时间由kinesis处理的文件的元数据。
稍后,我们可以使用在任何给定时间范围内重新处理/重播事件。
这是相同的github链接。
https://github.com/scopely/kinesis-vcr
请告诉我这是否适合您。
谢谢&问候, Srivignesh KN