快速将Dynamo DB表导出到S3

时间:2016-07-06 20:38:37

标签: amazon-web-services amazon-s3 amazon-dynamodb amazon-data-pipeline

所以我想将整个DynamoDB表转储到S3。这个tutorial很好地解释了如何这样做。给它一个测试,它工作......很棒

但是现在我想在我的生产数据上使用它,这些数据相当大(> 100GB)。我希望它能够快速运行。显然,我的DynamoDB表上的读取吞吐量是一个因素,但是有一种方法可以确保数据管道正在尽其所能。我对这些并不是很熟悉,设置后的架构师视图有例如类型和实例计数的区域,但是增加这些会减少我的管道时间吗?除了指定您要使用的表的吞吐量之外,本教程没有提及任何有关速度的内容。它会根据它自动扩展吗?

1 个答案:

答案 0 :(得分:0)

该模板基于datapipeline团队在gihub上拥有的开源示例。

您所指的模板是here

如果您查看管道定义,您会发现导出是通过map-reduce作业完成的。导出作业的可伸缩性应由此处理。

如果您需要了解有关EMR如何与DynamoDB配合使用的更多详细信息,您可以在here找到它。如果增加实例数,则需要相应地调整表的吞吐量,以增加导出的并行性。