我正在使用MongoTool
runner将数据从mongoDB导入Hadoop mapreduce作业。由于我得到的数据大小OutOfMemoryError
。所以我想限制我以批量方式获取的记录数。
MongoConfigUtil.setQuery()
只能设置查询,但我无法设置大小来限制提取的记录数。我正在寻找的是像
MongoConfigUtil.setBatchSize() 然后 MongoConfigUtil.getNextBatch()
类似的东西。
请建议。
答案 0 :(得分:0)
您可以使用MongoInputSplit类的 setLimit 方法,传递您要获取的文档数。
myMongoInputSplitObj = new MongoInputSplit(*param*)
myMongoInputSplitObj.setLimit(100)
MongoConfigUtil setLimit
Allow users to set the limit on MongoInputSplits (HADOOP-267).