有没有办法控制map reduce中的inputsplit

时间:2014-02-06 05:19:39

标签: hadoop map mapreduce

我每小时有很多小(150-300 KB)文本文件9000,我需要通过map reduce处理它们。我创建了一个简单的MR,它将处理所有文件并创建单个输出文件。当我以1小时的数据运行这份工作时,需要45分钟。我开始挖掘性能不佳的原因,我发现它需要与文件数一样多的输入分割。因为我猜测表现不佳的原因之一。

有没有办法控制输入分割,我可以说一个输入分割/地图可以接受1000个文件。

1 个答案:

答案 0 :(得分:0)

Hadoop专为大量文件而设计,而不是其他方式。有一些方法可以使用preprocessing来搜索CombineFileInputFormat数据。