我正在尝试编写一个Map Reduce程序,我有大约1000个小文件(大小只有几MB)作为输入。根据我的理解,这将导致创建大约1000个映射器任务(HDFS块大小默认为64MB)。因此,在这种情况下,使用CombineFileInputFormat将比TextInputFormat更有效。我对么?
如果是这样,如何在我的程序中使用CombineFileInputFormat?
答案 0 :(得分:0)
Hadoop api尚未为CombineFileInputFormat
提供完全具体的实现。
我自己实施了一些。看看:https://github.com/thomachan/Custom-MR/tree/master/src/mapreduce/hi/api/input/defaultcustom