Question

我正在尝试遍历DynamoDB表中的所有项目。（我知道这是一个效率低下的过程，但我这样做是为了构建一个索引表。）

据我所知，DynamoDB的scan（）函数返回1MB或提供的限制中的较小者。为了弥补这一点，我写了一个函数来查找“LastEvaluatedKey”结果并从LastEvaluatedKey开始重新查询以获得所有结果。

不幸的是，似乎每次我的函数循环时，整个数据库中的每一个键都被扫描，很快就吃掉了我分配的读取单元。这非常慢。

这是我的代码：

def search(table, scan_filter=None, range_key=None,
           attributes_to_get=None,
           limit=None):
    """ Scan a database for values and return
        a dict.
    """

    start_key = None
    num_results = 0
    total_results = []
    loop_iterations = 0
    request_limit = limit

    while num_results < limit:
        results = self.conn.layer1.scan(table_name=table,
                                  attributes_to_get=attributes_to_get,
                                  exclusive_start_key=start_key,
                                  limit=request_limit)
        num_results = num_results + len(results['Items'])
        start_key = results['LastEvaluatedKey']
        total_results = total_results + results['Items']
        loop_iterations = loop_iterations + 1
        request_limit = request_limit - results['Count']

        print "Count: " + str(results['Count'])
        print "Scanned Count: " + str(results['ScannedCount'])
        print "Last Evaluated Key: " + str(results['LastEvaluatedKey']['HashKeyElement']['S'])
        print "Capacity: " + str(results['ConsumedCapacityUnits'])
        print "Loop Iterations: " + str(loop_iterations)

    return total_results

调用该函数：

db = DB()
results = db.search(table='media',limit=500,attributes_to_get=['id'])

我的输出：

Count: 96
Scanned Count: 96
Last Evaluated Key: kBR23QJNAwYZZxF4E3N1crQuaTwjIeFfjIv8NyimI9o
Capacity: 517.5
Loop Iterations: 1
Count: 109
Scanned Count: 109
Last Evaluated Key: ATcJFKfY62NIjTYY24Z95Bd7xgeA1PLXAw3gH0KvUjY
Capacity: 516.5
Loop Iterations: 2
Count: 104
Scanned Count: 104
Last Evaluated Key: Lm3nHyW1KMXtMXNtOSpAi654DSpdwV7dnzezAxApAJg
Capacity: 516.0
Loop Iterations: 3
Count: 104
Scanned Count: 104
Last Evaluated Key: iirRBTPv9xDcqUVOAbntrmYB0PDRmn5MCDxdA6Nlpds
Capacity: 513.0
Loop Iterations: 4
Count: 100
Scanned Count: 100
Last Evaluated Key: nBUc1LHlPPELGifGuTSqPNfBxF9umymKjCCp7A7XWXY
Capacity: 516.5
Loop Iterations: 5

这是预期的行为吗？或者，我做错了什么？

Answer 1

简短回答

你没有做错什么

答案很长

这与亚马逊计算容量单位的方式密切相关。首先，理解这一点非常重要：

capacity units == reserved computational units
capacity units != reserved network transit

嗯，即使这并不严格地说，但非常接近，特别是涉及Scan时。

在Scan操作期间，

之间存在根本区别

已扫描的商品：累计尺寸最多 1MB，如果已达到limit，可能会低于该尺寸
已退回的商品：所有匹配商品 已扫描商品

由于capacity unit是计算单位，您支付 已扫描的商品。实际上，您需要支付扫描项目的累积大小。请注意，此大小包括所有存储和索引开销... 0.5 capacity / cumulated KB

扫描尺寸不依赖于任何滤镜，无论是场选择器还是结果滤镜。

根据您的结果，我猜您的项目每个需要大约10KB，您对其实际有效负载大小的评论往往会确认。

另一个例子

我有一个只包含很小元素的测试表。扫描仅使用1.0容量单位来检索100个项目，因为cumulated size < 2KB

迭代DynamoDB表中的所有项目

1 个答案:

简短回答

答案很长

另一个例子