在Hadoop中使用CombineFileInputFormat

时间:2014-02-13 22:42:26

标签: hadoop mapreduce

我正在尝试编写一个Map Reduce程序,我有大约1000个小文件(大小只有几MB)作为输入。根据我的理解,这将导致创建大约1000个映射器任务(HDFS块大小默认为64MB)。因此,在这种情况下,使用CombineFileInputFormat将比TextInputFormat更有效。我对么?

如果是这样,如何在我的程序中使用CombineFileInputFormat?

1 个答案:

答案 0 :(得分:0)

Hadoop api尚未为CombineFileInputFormat提供完全具体的实现。 我自己实施了一些。看看:https://github.com/thomachan/Custom-MR/tree/master/src/mapreduce/hi/api/input/defaultcustom