一个地图输入的数百万个地图输出。它有效吗?

时间:2012-09-17 20:20:05

标签: hadoop mapreduce

所以,我所做的是,我将一个文本文件映射为一个完整的记录(wholefileinputformat),做一些处理,然后用context.write逐行写出输出。问题是,事实证明它根本没有效率。一个map任务产生数百万个输出,我得到堆内存错误。有没有其他方法这样做?

   map-input(file_name, file_contents_as_Text)  
   String output = process(file_contents)   
   for(each line in output)   
        context.write(line, some_value)  

0 个答案:

没有答案