从DynamoDB表到另一个DynamoDB表

时间:2017-06-17 19:48:06

标签: python hive amazon-emr amazon-data-pipeline

我在DynamoDB中有一个大小为15 GB的表。现在我需要将基于时间戳(在db中)的一些数据传输到另一个DynamoDB。 这里最有效的选择是什么?

a)转移到S3,用pandas进行处理或者进入另一个表(数据很大。我觉得这可能需要很长时间)

b)通过DataPipeLine(阅读很多但不认为我们可以在那里提出查询)

c)通过EMR和Hive(这似乎是最好的选择但是可以通过python脚本完成所有工作吗?我是否需要创建EMR集群并使用它或每次创建和终止?EMR如何?是否有效且廉价地使用?)

1 个答案:

答案 0 :(得分:1)

我建议将数据管道转换为S3方法。然后有一个脚本从S3读取并处理您的记录。您可以安排此操作定期运行以备份所有数据。我不认为任何进行全扫描的解决方案都会为您提供更快的方式,因为它始终受读取吞吐量的限制。

另一种可能的方法是使用dynamoDB流和lambdas实时维护第二个表。您仍然需要首先使用上述方法处理现有的15 GB,然后切换到lambdas以保持同步