所以,我所做的是,我将一个文本文件映射为一个完整的记录(wholefileinputformat),做一些处理,然后用context.write逐行写出输出。问题是,事实证明它根本没有效率。一个map任务产生数百万个输出,我得到堆内存错误。有没有其他方法这样做?
map-input(file_name, file_contents_as_Text)
String output = process(file_contents)
for(each line in output)
context.write(line, some_value)