Hadoop具有任意的,不可分割的,预先存在的二进制文件

时间:2014-05-09 13:17:38

标签: hadoop mapreduce

我正在尝试在大量预先存在的二进制文件上运行MapReduce作业。文件已存在,我无法更改格式。

我应该为此编写自己的InputFormat吗?如何创建一个简单的InputFormat,只返回一个InputStream,以便我可以处理文件?

1 个答案:

答案 0 :(得分:0)

我认为我们没有内置的InputFormat,它会忽略拆分并将映射器提供给整个文件。

您需要编写自己的自定义InputFormat。您可以找到here

的详细信息