如何创建自定义FileInputFormat,将文件作为单个记录发送到映射器 请帮我使用自定义FileInputFormat
的示例答案 0 :(得分:3)
您希望使用以下覆盖的自定义文件输入格式:
@Override
protected boolean isSplitable(JobContext context, Path filename) {
return false;
}
hadoop源代码MultiFileWordCount中有一个例子。在该示例中,您将上面重写的“isSplitable”方法添加到“CustomInputFormat”以避免拆分。
Here is a gist如何将“isSplitable”合并到MultiFileWordCount示例中;使用香草hadoop api。