使用自定义FileInputFormat

时间:2013-03-19 19:07:52

标签: hadoop mapreduce

如何创建自定义FileInputFormat,将文件作为单个记录发送到映射器 请帮我使用自定义FileInputFormat

的示例

1 个答案:

答案 0 :(得分:3)

您希望使用以下覆盖的自定义文件输入格式:

        @Override
        protected boolean isSplitable(JobContext context, Path filename) {
            return false;
        }

hadoop源代码MultiFileWordCount中有一个例子。在该示例中,您将上面重写的“isSplitable”方法添加到“CustomInputFormat”以避免拆分。

Here is a gist如何将“isSplitable”合并到MultiFileWordCount示例中;使用香草hadoop api。