我有一个Mongodb系列。简单来说,它有两列:user和url。它有39274590行。该表的关键是{user,url}。
使用Java,我尝试列出不同的URL:
MongoDBManager db = new MongoDBManager( "Website", "UserLog" );
return db.getDistinct("url");
但我收到一个例外:
Exception in thread "main" com.mongodb.CommandResult$CommandFailure: command failed [distinct]:
{ "serverUsed" : "localhost/127.0.0.1:27017" , "errmsg" : "exception: distinct too big, 16mb cap" , "code" : 10044 , "ok" : 0.0}
我该如何解决这个问题?是否有任何计划B可以避免这个问题?
感谢。
答案 0 :(得分:6)
在2.6版中,您可以使用aggregate命令生成单独的集合: http://docs.mongodb.org/manual/reference/operator/aggregation/out/
对于大多数查询,这将使mongodb的限制达到16mb。您可以在此处阅读有关在mongodb 2.6中对大型数据集使用聚合框架的更多信息: http://vladmihalcea.com/mongodb-2-6-is-out/
做一个独特的'使用聚合框架进行查询,按字段分组。
db.userlog.aggregate([{$group: {_id: '$url'} }]);
注意:我不知道这对Java驱动程序有何用处,祝你好运。
答案 1 :(得分:3)
看看这个answer
1)最简单的方法是通过聚合框架。这需要两个" $ group"命令:第一个按不同的值分组,第二个命令计算所有不同的值
2)如果你想用Map / Reduce做到这一点,你可以。这也是一个两阶段的过程:在第一阶段,我们构建一个新的集合,其中包含密钥的每个不同值的列表。在第二个中,我们对新集合执行count()。
请注意,您无法返回map / reduce内联的结果,因为这可能会超出16MB的文档大小限制。您可以将计算保存在集合中,然后count()计算集合的大小,或者您可以从mapReduce()的返回值中获取结果数。
答案 2 :(得分:0)
Groovy上的3.x版本:
import com.mongodb.client.AggregateIterable
import com.mongodb.client.MongoCollection
import com.mongodb.client.MongoCursor
import com.mongodb.client.MongoDatabase
import static com.mongodb.client.model.Accumulators.sum
import static com.mongodb.client.model.Aggregates.group
import static java.util.Arrays.asList
import org.bson.Document
//other code
AggregateIterable<Document> iterable = collection.aggregate(
asList(
group("\$" + "url", sum("count", 1))
)
).allowDiskUse(true)
MongoCursor cursor = iterable.iterator()
while(cursor.hasNext()) {
Document doc = cursor.next()
println(doc.toJson())
}