Question

我收集了约800万份文件。每个文档具有以下格式，例如：

doc_1: {'_id':..., 'user_name': 'bla1', 'predicted_class': 'class_1}
doc_2: {'_id':..., 'user_name': 'bla2', 'predicted_class': 'class_2}

“ user_name”字段是一个包含唯一值，而“ predicted_class”则不包含。

我正在尝试获取某个预测类的不同用户名。在某些情况下（一个predicted_class类有一些文档），我得到了不同的值，但是在大多数情况下，它只是加载和加载（磁盘和内存使用率很高），但并没有结束。

我试图使用简单的

db.getCollection('predictions').find({'predicted_class': 'class_a'}).distinct('user_name')

以及

但那里没有运气。

问题是由于集合大小而引起的，我知道必须采用其他方法（也许可以减少map），但是不幸的是，我对Mongodb的理解受到限制。

我应该如何解决这个问题？