Question

我正在使用以下代码通过DynamoDB查询进行查询和分页：

class DecimalEncoder(json.JSONEncoder):
    def default(self, o):
        if isinstance(o, decimal.Decimal):
            return str(o)
        return super(DecimalEncoder, self).default(o)


def run(date: int, start_epoch: int, end_epoch: int):
    dynamodb = boto3.resource('dynamodb',
                              region_name='REGION',
                              config=Config(proxies={'https': 'PROXYIP'}))

    table = dynamodb.Table('XYZ')

    response = table.query(
        # ProjectionExpression="#yr, title, info.genres, info.actors[0]", #THIS IS A SELECT STATEMENT
        # ExpressionAttributeNames={"#yr": "year"},  #SELECT STATEMENT RENAME
        KeyConditionExpression=Key('date').eq(date) & Key('uid').between(start_epoch, end_epoch)
    )

    for i in response[u'Items']:
        print(json.dumps(i, cls=DecimalEncoder))

    while 'LastEvaluatedKey' in response:
        response = table.scan( ##IS THIS INEFFICIENT CODE?
            # ProjectionExpression=pe,
            # FilterExpression=fe,
            # ExpressionAttributeNames=ean,
            ExclusiveStartKey=response['LastEvaluatedKey']
        )

        for i in response['Items']:
            print(json.dumps(i, cls=DecimalEncoder))

尽管此代码有效，但它的运行速度极其慢，我担心'response = table.scan'是此结果。我的印象是查询比扫描要快得多（因为扫描需要表的整个迭代）。这段代码会导致数据库表的完整迭代吗？

这可能是一个单独的问题，但是这样做有更有效的方法（带有代码示例）吗？我尝试使用Boto3的分页功能，但也无法在查询中使用它。

Answer 1

不幸的是，是的，“扫描”操作将读取整个表。您没有说表的分区键是什么，但是如果它是一个日期，那么您在这里真正要做的就是读取一个分区，而这实际上是“查询”操作更有效的方法，因为它可以直接跳到所需的分区，而不用扫描整个表来查找它。

即使使用Query，您仍然仍然需要像以前一样进行分页，因为分区中仍有很多项目的可能性。但是至少您不会扫描整个表。

顺便说一句，扫描整个表将花费大量读取操作。您可以询问AWS占您多少读物，这可以帮助您发现读物过多的情况-除了您注意到的明显缓慢之外。

Answer 2

Nadav Har'El提供的答案是解决此问题的关键。我通过执行初始DynamoDB查询来错误地使用DynamoDB分页代码示例，但是随后使用scan进行分页！

正确的方法是最初使用查询AND进行分页：

class DecimalEncoder(json.JSONEncoder):
        def default(self, o):
            if isinstance(o, decimal.Decimal):
                return str(o)
            return super(DecimalEncoder, self).default(o)


    def run(date: int, start_epoch: int, end_epoch: int):
        dynamodb = boto3.resource('dynamodb',
                                  region_name='REGION',
                                  config=Config(proxies={'https': 'PROXYIP'}))

        table = dynamodb.Table('XYZ')

        response = table.query(
            KeyConditionExpression=Key('date').eq(date) & Key('uid').between(start_epoch, end_epoch)
        )

        for i in response[u'Items']:
            print(json.dumps(i, cls=DecimalEncoder))

        while 'LastEvaluatedKey' in response:
            response = table.query(
                KeyConditionExpression=Key('date').eq(date) & Key('uid').between(start_epoch, end_epoch),
                ExclusiveStartKey=response['LastEvaluatedKey']
            )

            for i in response['Items']:
                print(json.dumps(i, cls=DecimalEncoder))

我仍然将Nadav Har'El的回答标记为正确，因为正是他的回答导致了此代码示例。

具有分页功能的DynamoDB Python查询（不扫描）

2 个答案: