限制选择查询批量大小

时间:2015-05-08 09:42:24

标签: mongodb hadoop

我正在使用MongoTool runner将数据从mongoDB导入Hadoop mapreduce作业。由于我得到的数据大小OutOfMemoryError。所以我想限制我以批量方式获取的记录数。

MongoConfigUtil.setQuery()

只能设置查询,但我无法设置大小来限制提取的记录数。我正在寻找的是像

MongoConfigUtil.setBatchSize() 然后 MongoConfigUtil.getNextBatch()

类似的东西。

请建议。

1 个答案:

答案 0 :(得分:0)

您可以使用MongoInputSplit类的 setLimit 方法,传递您要获取的文档数。

myMongoInputSplitObj = new MongoInputSplit(*param*)
myMongoInputSplitObj.setLimit(100)

MongoConfigUtil setLimit
Allow users to set the limit on MongoInputSplits (HADOOP-267).