我收集了约800万份文件。每个文档具有以下格式,例如:
doc_1: {'_id':..., 'user_name': 'bla1', 'predicted_class': 'class_1}
doc_2: {'_id':..., 'user_name': 'bla2', 'predicted_class': 'class_2}
“ user_name”字段是一个包含唯一值,而“ predicted_class”则不包含。
我正在尝试获取某个预测类的不同用户名。在某些情况下(一个predicted_class类有一些文档),我得到了不同的值,但是在大多数情况下,它只是加载和加载(磁盘和内存使用率很高),但并没有结束。
我试图使用简单的
db.getCollection('predictions').find({'predicted_class': 'class_a'}).distinct('user_name')
以及
但那里没有运气。
问题是由于集合大小而引起的,我知道必须采用其他方法(也许可以减少map),但是不幸的是,我对Mongodb的理解受到限制。
我应该如何解决这个问题?