具有多个文件输入的WholeFileInputFormat

时间:2013-03-31 22:21:51

标签: hadoop mapreduce

如何将WholeFileInputFormat与许多文件一起用作输入? 许多文件作为一个文件...... FileInputFormat.addInputPaths(job,String ...);似乎没有正常工作

1 个答案:

答案 0 :(得分:0)

您需要将InputFormat中的“isSplittable”设置为“false”,以便输入文件不会被分割并仅由1个映射器处理。但是有一个小建议,你可以尝试一下Sequence File。将您尝试处理的多个文件合并到一个序列文件中,然后对其进行处理。由于序列文件已经是键/值形式,因此效率会更高。