仅备份从DynamoDB到S3的新记录并将其加载到RedShift

时间:2016-03-22 11:48:14

标签: amazon-web-services amazon-s3 amazon-dynamodb amazon-redshift amazon-data-pipeline

我看到类似的问题已经存在:

Backup AWS Dynamodb to S3

Copying only new records from AWS DynamoDB to AWS Redshift

Loading data from Amazon dynamoDB to redshift

不幸的是,大多数都已过时(因为亚马逊推出了新服务)和/或有不同的答案。

在我的情况下,我有两个数据库(RedShift和DynamoDB),我必须:

  • 让RedShift数据库保持最新状态
  • 在S3上存储数据库备份

为此,我想使用这种方法:

  1. 仅备份新/修改的记录 从一天结束时从DynamoDB到S3。 (每天1个文件)
  2. 使用S3中的文件更新RedShift数据库
  3. 所以我的问题是最有效的方法是什么?

    我看了this tutorial,但我不确定 AWS Data Pipeline 是否可以配置为" catch"只有DynamoDB的新记录。如果无法做到这一点,则无法每次扫描整个数据库。

    提前谢谢!

1 个答案:

答案 0 :(得分:3)

您可以将Amazon Lambda与dynamodb stream(documentation

一起使用

您可以配置lambda函数以获取更新的记录(来自dynamodb流),然后更新redshift db