在dynamoDB数据上运行EMR作业

时间:2014-10-07 08:36:32

标签: amazon-web-services amazon-emr

我想在DynamoDB表上运行MapReduce作业。 我的问题是:

可以将所有表(即使它非常大,有数千万条目)转储到S3上的一个文件中吗?

也就是说,MapReduce是否会知道" chunks"这些文件并分发给映射器?或者是在S3上向映射器提供文件的原子单元,然后我需要将表分成许多小文件,例如make文件最多10,0000行。

如果是这种情况,是否有办法使用AWS Data Pipline将dynamoDB表转储到S3上的几个不同文件中?

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以看到这样将DynamoDB数据导出到S3

https://aws.amazon.com/articles/Elastic-MapReduce/28549

选中将DynamoDB中存储的数据导出到Amazon S3。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html

视频在 http://www.youtube.com/watch?v=RlKndm22bXw

希望这有帮助。