从DynamoDB读取时,爬网程序超出了读取容量

时间:2018-08-08 14:40:44

标签: amazon-web-services amazon-dynamodb aws-glue

我正在尝试使用AWS Glue将DynamoDB表导出到S3。对于胶水作业,我需要在胶水数据目录中创建一个表。为了在数据目录中列出我的DynamoDB表,我需要运行搜寻器(我认为是确定表架构的)。运行搜寻器时,它开始从DynamoDB读取大量数据,这超出了我尝试设置的任何读取容量单位。

不幸的是,在确定架构时,我既找不到控制台,也找不到API来更改给定搜寻器的任何参数的方法。

我认为,如果我可以更改搜寻器以读取少量数据或为DynamoDB表手动指定架构,则可以解决我的问题。您对此有任何想法吗?

或者,如果Glue不适合将DynamoDB表导出到S3,您还可以建议其他什么方法?

1 个答案:

答案 0 :(得分:1)

您正在为此寻找Amazon DataPipeline服务!有一个内置模板,要求您将S3存储桶放在要导出该表的位置。您需要做的就是填写参数,然后运行管道。您可以安排它按需运行或仅运行一次。有关更多详细信息,请参见下面的链接。

https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-exportddbtos3.html