如何在python中为Firestore批处理500多个操作?

时间:2018-12-25 09:39:21

标签: python firebase google-cloud-firestore

我正在通过python中的网页抓取创建文档,并将其上传到Firestore。 为此,我将它们添加到字典中并从python中的for循环中一个一个地上载(理想情况下最好一次上载该集合,但这似乎不是一个选择)。我想使用批处理,但是每个批处理有500个限制,我需要执行超过100,000个操作。这些操作仅仅是set()操作和几个update() 是否有一个函数可以知道批次的当前大小,以便我可以重新初始化它? 在Python中使用批处理进行500多次操作的最佳方法是什么?

2 个答案:

答案 0 :(得分:2)

一个批次中最多可以进行500次操作。如果您需要更多操作,则需要多个批次。

没有用于确定批处理中当前操作数的API。如果需要,则必须自己进行跟踪。

答案 1 :(得分:0)

在使用python时,我发现处理500个批次限制的最好方法是将要发送到Firestore的所有数据放在“ Flat”字典中,这样我就可以处理每个唯一的文档。对于每个文档,此字典均具有以下格式的键:'collection_document_collection_document ...',而该键的值将是具有以下内容的词典:

{'action': 'set', 'reference': reference, 'document': {}}

“操作”可以是“设置”,“更新”或“删除”,“参考”键是实际的Firestore参考,“文档”仅是文档。 例如,这是两个位于不同位置的文档。

{
    'user_data_roger':
    {'action': 'set', 'reference': db.collection('user_data').document('roger'), 'document': {'name': 'Roger', 'age': 37}},
    'user_data_roger_works_april':
    {'action': 'update', 'reference': db.collection('user_data').document('roger').collection('works').document('april'), 'document': {'is_valid': True, 'in_progress': True, 'level':5}},
}

处理完所有数据后,我需要将字典拆分为500个项目的数组,然后使用批处理的“操作”键将所有这些项目添加到该批处理中。

# Convert dictionary to a list
dictionary_list = []
for item in dictionary:
    dictionary_list.append(dictionary.get(item))
# Split List in lists containing 500 items per list
list_to_batch = [dictionary_list[item:item+500] for item in range(0, len(dictionary_list), 500)]
# Finally iterate through the 'list_to_batch' add each item to the batch and commit using a for loop
for item in list_to_batch:
    batch = db.batch()
    for document in item:
        if document['action'] == 'set':
            batch.set(document['reference'], document['value'])
        elif draw['action'] == 'update':
            batch.update(document['reference'], document['value'])
        else:
            batch.delete(document['reference'], document['value'])
    # Finally commit the batch
    batch.commit()

在我的特定情况下,处理完所有需要的数据后,我最终进行了超过700,000次操作,因此请注意计费:-D