MongoDB明显太大了16mb的上限

时间:2014-12-05 19:16:35

标签: java mongodb

我有一个Mongodb系列。简单来说,它有两列:user和url。它有39274590行。该表的关键是{user,url}。

使用Java,我尝试列出不同的URL:

  MongoDBManager db = new MongoDBManager( "Website", "UserLog" );
  return db.getDistinct("url"); 

但我收到一个例外:

Exception in thread "main" com.mongodb.CommandResult$CommandFailure: command failed [distinct]: 
{ "serverUsed" : "localhost/127.0.0.1:27017" , "errmsg" : "exception: distinct too big, 16mb cap" , "code" : 10044 , "ok" : 0.0}

我该如何解决这个问题?是否有任何计划B可以避免这个问题?

感谢。

3 个答案:

答案 0 :(得分:6)

在2.6版中,您可以使用aggregate命令生成单独的集合: http://docs.mongodb.org/manual/reference/operator/aggregation/out/

对于大多数查询,这将使mongodb的限制达到16mb。您可以在此处阅读有关在mongodb 2.6中对大型数据集使用聚合框架的更多信息: http://vladmihalcea.com/mongodb-2-6-is-out/

做一个独特的'使用聚合框架进行查询,按字段分组。

db.userlog.aggregate([{$group: {_id: '$url'} }]); 

注意:我不知道这对Java驱动程序有何用处,祝你好运。

答案 1 :(得分:3)

看看这个answer

  

1)最简单的方法是通过聚合框架。这需要两个" $ group"命令:第一个按不同的值分组,第二个命令计算所有不同的值

     

2)如果你想用Map / Reduce做到这一点,你可以。这也是一个两阶段的过程:在第一阶段,我们构建一个新的集合,其中包含密钥的每个不同值的列表。在第二个中,我们对新集合执行count()。

     

请注意,您无法返回map / reduce内联的结果,因为这可能会超出16MB的文档大小限制。您可以将计算保存在集合中,然后count()计算集合的大小,或者您可以从mapReduce()的返回值中获取结果数。

答案 2 :(得分:0)

Groovy上的3.x版本:

import com.mongodb.client.AggregateIterable
import com.mongodb.client.MongoCollection
import com.mongodb.client.MongoCursor
import com.mongodb.client.MongoDatabase
import static com.mongodb.client.model.Accumulators.sum
import static com.mongodb.client.model.Aggregates.group
import static java.util.Arrays.asList
import org.bson.Document

//other code

AggregateIterable<Document> iterable = collection.aggregate(
    asList(
        group("\$" + "url", sum("count", 1))
    )
).allowDiskUse(true)

MongoCursor cursor = iterable.iterator()

while(cursor.hasNext()) {
    Document doc = cursor.next()
    println(doc.toJson())
}