应用错误收集

在hadoop中输入拆分的自定义输入格式

时间：2014-06-28 06:29:50

标签： java hadoop mapreduce input-split

我是否可以将整个input split放入mapper而不是每行inputsplit到mapper。

为此，我需要实现自己的自定义输入格式。但如果我正在写WholeFileInputFormat

是否意味着映射器获得整行或整个输入分割？

NLineInputFormat 是否解决了我的问题？

1 个答案:

答案 0 :(得分：0)

我不会为NLineInputFormat而烦恼。您可能并不总是知道 N 是什么，并且您不需要输入格式的开销来读取每个文件以找到行字节偏移。

来自here的WholeFileInputFormat（我假设您正在引用的内容）会将整个文件作为值传递给map方法。