应用错误收集

时间：2017-06-17 19:48:06

标签： python hive amazon-emr amazon-data-pipeline

我在DynamoDB中有一个大小为15 GB的表。现在我需要将基于时间戳（在db中）的一些数据传输到另一个DynamoDB。这里最有效的选择是什么？

a）转移到S3，用pandas进行处理或者进入另一个表（数据很大。我觉得这可能需要很长时间）

b）通过DataPipeLine（阅读很多但不认为我们可以在那里提出查询）

c）通过EMR和Hive（这似乎是最好的选择但是可以通过python脚本完成所有工作吗？我是否需要创建EMR集群并使用它或每次创建和终止？EMR如何？是否有效且廉价地使用？）

答案 0 :(得分：1)

我建议将数据管道转换为S3方法。然后有一个脚本从S3读取并处理您的记录。您可以安排此操作定期运行以备份所有数据。我不认为任何进行全扫描的解决方案都会为您提供更快的方式，因为它始终受读取吞吐量的限制。

另一种可能的方法是使用dynamoDB流和lambdas实时维护第二个表。您仍然需要首先使用上述方法处理现有的15 GB，然后切换到lambdas以保持同步