我正在尝试将DynamoDB表备份到S3。由于某种原因,通过AWS控制台上的导出 does not work ,并且由于表格不是很大,我尝试使用基于boto的脚本来执行此操作。这是我脚本的主要部分:
import boto.dynamodb2
from boto.dynamodb2.table import Table
c_ddb2 = boto.dynamodb2.connect_to_region(...)
table = Table("myTable",connection=c_ddb2)
# also connect to S3
scanres = table.scan()
for item in scanres:
# process and store next item
我收到以下异常:
Traceback (most recent call last):
File "/home/.../ddb2s3.py", line 155, in <module>
main()
File "/home/.../ddb2s3.py", line 124, in main
for it in scanres:
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/results.py", line 62, in next
self.fetch_more()
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/results.py", line 144, in fetch_more
results = self.the_callable(*args, **kwargs)
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/table.py", line 1213, in _scan
**kwargs
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 1712, in scan
body=json.dumps(params))
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 2100, in make_request
retry_handler=self._retry_handler)
File "/usr/local/lib/python2.7/dist-packages/boto/connection.py", line 932, in _mexe
status = retry_handler(response, i, next_sleep)
File "/usr/local/lib/python2.7/dist-packages/boto/dynamodb2/layer1.py", line 2134, in _retry_handler
response.status, response.reason, data)
boto.dynamodb2.exceptions.ProvisionedThroughputExceededException: ProvisionedThroughputExceededException: 400 Bad Request
{u'message': u'The level of configured provisioned throughput for the table was exceeded. Consider increasing your provisioning level with the UpdateTable API', u'__type': u'com.amazonaws.dynamodb.v20120810#ProvisionedThroughputExceededException'}
读取预配置吞吐量设置为1000,因此它应该足够了。当我运行脚本并获得异常并且我不想调整它时,写入配置的t / p被设置为低值,因为它会干扰偶尔批量写入表中,但为什么我需要触摸它?
为什么我收到此错误?对MyTable
的AWS控制台监控显示的读数非常少,因此它低于配置的1000.我做错了什么?
答案 0 :(得分:3)
如果您已签入AWS管理控制台并验证即使读取容量远低于预配容量也会发生限制事件,则最可能的答案是您的散列键未均匀分布。随着DynamoDB表的大小和容量的增加,DynamoDB服务将自动将表拆分为分区。然后,它将使用项的哈希键来确定存储项的哪个分区。此外,您的预配置读取容量也会在分区之间平均分配。
如果你有一个分布均匀的哈希键,这一切都可以。但是,如果您的哈希键分布不均匀,则可能导致所有或大部分读取来自单个分区。因此,例如,如果您有10个分区并且表上的预配置读取容量为1000,则每个分区的读取容量为100.如果所有读取都打到一个分区,则将以100个读取单位进行限制而不是1000。
不幸的是,真正解决这个问题的唯一方法是选择一个更好的哈希并用这些哈希值重写表。
答案 1 :(得分:1)
aws-sdk
重试逻辑现在可以应用于DynamoDB(请参阅the config docs。)
因此,请考虑以下设置作为可能的帮助。
AWS.config.update({
maxRetries: 15,
retryDelayOptions: {base: 500}
});