我是Hadoop的新手,现在必须处理输入文件。我想处理每一行,输出应该是每行的一个文件。
我在网上冲浪,发现了MultipleOutputFormat和generateFileNameForKeyValue。
但大多数人用JobConf类编写它。当我使用Hadoop 0.20.1时,我认为Job类发生了。我不知道如何使用Job类按键生成多个输出文件。
有人可以帮助我吗?
答案 0 :(得分:0)
Eclipse插件主要用于提交和监视作业,以及与HDFS交互,与真实或“伪造”群集进行交互。
如果您在本地模式下运行,那么我认为该插件不会为您带来任何好处 - 因为您的作业将在单个JVM中运行。考虑到这一点,我会说在Eclipse项目的类路径中包含最新的1.x hadoop-core。
无论如何MultipleOutputFormat
还没有被移植到新的mapreduce包中(在1.1.2或2.0.4-alpha中都没有),所以你需要自己移植它或者找另一种方式(也许{{}} 1}} - Javadoc page has some usage on using MultipleOutputs)