我正在查询一个时间范围内的mongo集合,并希望将输出推送到新集合。我正在使用batchSize
来减少查询数据时的网络操作数量。我试图了解将查询的batchsize插入新集合的最佳方法。
我本来打算将insert_many()
用作一个选项,但是此页面说明它等同于在pymongo v3及更高版本中使用insert()
。
Pymongo bulk inserts not working
是否还有其他方法可以通过查询和插入操作进行优化? 这是我的示例代码:
def main():
client = MongoClient('mongodb://somelocal:27017')
gdb = 'test_db'
global_mdb = client[gdb]
prod_data = global_mdb["test_collection"].find({'first_seen_on': {'$gt': 1541030400, '$lt': 1541116799}})
prod_data.batch_size(10000)
collection = global_mdb['temp_2']
collection.insert_many(prod_data)
main()