如何处理AWS Kinesis中的重新处理方案?

时间:2018-02-16 09:31:36

标签: amazon-web-services amazon-kinesis amazon-kcl

我正在探索AWS Kinesis的数据处理要求,用基于流的方法取代旧批量ETL处理。

该项目的关键要求之一是能够在

的情况下重新处理数据
  • 发现并修复了一个错误,并重新部署了该应用程序。数据需要从头开始重新处理。
  • 添加了新功能,并且需要完全或部分重新处理历史记录。

这里的情景非常好地记录在卡夫卡 - https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios

我已经在Kinesis中看到了基于时间戳的ShardIterator,我认为可以使用Kinesis API构建Kafka之类的resetter-tool,但如果已经存在这样的东西会很棒。即使它没有,也可以向那些解决过类似问题的人学习。

那么,有没有人知道在Kinesis中可以使用的任何现有资源,模式和工具?

1 个答案:

答案 0 :(得分:1)

我遇到了想要重新处理kinesis处理记录的场景,我使用Kinesis-VCR重新处理了kinesis生成的记录。

Kinesis-VCR记录了kinesis流,并维护了在给定时间由kinesis处理的文件的元数据。

稍后,我们可以使用在任何给定时间范围内重新处理/重播事件。

这是相同的github链接。

https://github.com/scopely/kinesis-vcr

请告诉我这是否适合您。

谢谢&问候, Srivignesh KN