标签: hadoop mapreduce
我正在尝试在大量预先存在的二进制文件上运行MapReduce作业。文件已存在,我无法更改格式。
我应该为此编写自己的InputFormat吗?如何创建一个简单的InputFormat,只返回一个InputStream,以便我可以处理文件?
答案 0 :(得分:0)
我认为我们没有内置的InputFormat,它会忽略拆分并将映射器提供给整个文件。
您需要编写自己的自定义InputFormat。您可以找到here