从gridFS获取数据时的性能循环

时间:2017-03-17 07:38:45

标签: mongodb pymongo gridfs

我正在使用pymongo从gridFS获取数据,而获取此数据的循环非常慢。

是否有可能避免这种循环,或者更快地做到这一点?

from pymongo import MongoClient
from pprint import pprint
import bson
from gridfs import GridFS
import json
import pandas as pd

client = MongoClient()

client.database_names()
db = client['MC']

fs = GridFS(db, collection="MC")

db.collection_names(include_system_collections=False)
collectionFiles = db['MC.files']
collectionChunk = db['MC.chunks']

files = db['MC.files'].find({"metadata.Feature0": "00011"})

for n in files:
    file_id = n['_id']
    chunks = db['MotorCalculo.chunks'].find({"files_id": file_id})
    bsondData = (fs.get(file_id).read())
    decData = bsondData.decode()
    jsonData = json.loads(decData)
    F1 = jsonData['Feature1']
    F2 = jsonData['Feature2']

1 个答案:

答案 0 :(得分:1)

如果你有足够的RAM,访问文件组应该更快,而不是拨打mongo。

您可以尝试这样的事情:

batch_file_id = ['#1', '#2', '#3', '#4']
chunks = db['MotorCalculo.chunks'].find('{\"files_id\" : {\"$in\":[{\"$oid\":\"' + '\"}, {\"$oid\":\"'.join(batch_file_id) + '\"}]}}')

...

batch_file_id
Out[1]: ['#1', '#2', '#3', '#4']

'{\"files_id\" : {\"$in\":[{\"$oid\":\"' + '\"}, {\"$oid\":\"'.join(batch_file_id) + '\"}]}}'
Out[2]: '{"files_id" : {"$in":[{"$oid":"#1"}, {"$oid":"#2"}, {"$oid":"#3"}, {"$oid":"#4"}]}}'

此致!!