我们目前使用大量的MongoDB聚合管道来进行一些数据处理。但是,我们经常遇到一些性能问题。我正在考虑将数据从MongoDB读取到Pandas数据帧中,并使用Pandas数据帧聚合来处理数据。有人比较这两种方法有经验吗?另外,MongoDB聚合管道是否在内部利用了某种并行性?
答案 0 :(得分:0)
我曾经使用带有库pymongo
的MongoDB和Python。
例如,当您进行汇总时,例如:
result = db.collection.aggregate([])
print(result)
它返回一个游标,所以如果这样做:
list(result)
然后将返回字典列表,因此您可以使用熊猫轻松地将其变成DataFrame
,例如:
df = pd.DataFrame(list(result))
因此,请查看pymongo
的文档,并查看如何使用它。