我想在DynamoDB表上运行MapReduce作业。 我的问题是:
可以将所有表(即使它非常大,有数千万条目)转储到S3上的一个文件中吗?
也就是说,MapReduce是否会知道" chunks"这些文件并分发给映射器?或者是在S3上向映射器提供文件的原子单元,然后我需要将表分成许多小文件,例如make文件最多10,0000行。
如果是这种情况,是否有办法使用AWS Data Pipline将dynamoDB表转储到S3上的几个不同文件中?
谢谢!
答案 0 :(得分:1)
您可以看到这样将DynamoDB数据导出到S3
https://aws.amazon.com/articles/Elastic-MapReduce/28549
选中将DynamoDB中存储的数据导出到Amazon S3。
http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/EMRforDynamoDB.html
视频在 http://www.youtube.com/watch?v=RlKndm22bXw
希望这有帮助。