应用错误收集

在Hadoop中使用CombineFileInputFormat

时间：2014-02-13 22:42:26

标签： hadoop mapreduce

我正在尝试编写一个Map Reduce程序，我有大约1000个小文件（大小只有几MB）作为输入。根据我的理解，这将导致创建大约1000个映射器任务（HDFS块大小默认为64MB）。因此，在这种情况下，使用CombineFileInputFormat将比TextInputFormat更有效。我对么？

如果是这样，如何在我的程序中使用CombineFileInputFormat？

1 个答案:

答案 0 :(得分：0)

Hadoop api尚未为CombineFileInputFormat提供完全具体的实现。我自己实施了一些。看看：https://github.com/thomachan/Custom-MR/tree/master/src/mapreduce/hi/api/input/defaultcustom