数据管道 - Dynamo DB导出

时间:2017-05-29 14:16:11

标签: amazon-web-services amazon-dynamodb amazon-data-pipeline

我在DynamoDB中有一个表,它有数百万条记录。我已根据标准创建了二级索引(GSI),并基于此过滤产品。现在,我想使用AWS数据管道来查询表中的产品并将其导出到S3。

问题:

a)我们可以在管道中指定GSI名称 - 因为使用数据管道查询大型表因超时问题而被取消。 [管道配置有6小时的最长等待时间,它正在达到并取消]? b)有没有更好的方法使用GSI索引快速从表中创建导出转储?

请分享您的观点。

此致 基肖尔马布

1 个答案:

答案 0 :(得分:0)

您无法在管道中指定GSI。您可以为dynamodb节点指定的可用选项列表为here。数据管道服务实际上为导出作业创建了一个EMR集群,该集群使用并行表扫描。您可以尝试为节点使用更大的实例大小来加速该过程。

由于您的表有数百万条记录,因此请确保已配置足够的读取吞吐量。即使您的预配置吞吐量很高,导出速度也取决于为导出作业分配的预配置吞吐量的百分比。这在AWS管道文档here中进行了描述。