我一直在使用AWS Data Pipeline将数据从DynamoDB迁移到S3。数据大小约为20 GB。有什么想法吗?
答案 0 :(得分:2)
AWS DataPipeline将整个DynamoDB表导出到one file in S3。此特定数据管道模板将使用MyExportJob.myDynamoDBReadThroughputRatio
变量定义的percentage of your table's provisioned capacity,并将适当地扩展MapReduce作业集群。您可以将读取吞吐量比率设置为0到1(0%-100%)。
如果您有20GB的数据,而数据管道scans your table in parallel使用MapReduce,您将消耗5242880 RCU。您希望备份需要多长时间。如果将读取吞吐率设置为1并将RPS设置为11988 RPS,则扫描DynamoDB表应该大约需要5242880/11988 = 437秒(4分17秒)。数据管道作业运行时应该是成比例的,并且非常接近扫描表所需的时间。请记住,Data Pipeline必须启动一个集群并将备份写入S3。