在hadoop中输入拆分的自定义输入格式

时间:2014-06-28 06:29:50

标签: java hadoop mapreduce input-split

我是否可以将整个input split放入mapper而不是每行inputsplit到mapper。

为此,我需要实现自己的自定义输入格式。 但如果我正在写WholeFileInputFormat

是否意味着映射器获得整行或整个输入分割?

NLineInputFormat 是否解决了我的问题?

1 个答案:

答案 0 :(得分:0)

我不会为NLineInputFormat而烦恼。您可能并不总是知道 N 是什么,并且您不需要输入格式的开销来读取每个文件以找到行字节偏移。

来自hereWholeFileInputFormat(我假设您正在引用的内容)会将整个文件作为值传递给map方法。