如何在hadoop中获得多个输出

时间:2013-05-19 17:25:24

标签: hadoop outputformat

我是Hadoop的新手,现在必须处理输入文件。我想处理每一行,输出应该是每行的一个文件。

我在网上冲浪,发现了MultipleOutputFormat和generateFileNameForKeyValue。

但大多数人用JobConf类编写它。当我使用Hadoop 0.20.1时,我认为Job类发生了。我不知道如何使用Job类按键生成多个输出文件。

有人可以帮助我吗?

1 个答案:

答案 0 :(得分:0)

Eclipse插件主要用于提交和监视作业,以及与HDFS交互,与真实或“伪造”群集进行交互。

如果您在本地模式下运行,那么我认为该插件不会为您带来任何好处 - 因为您的作业将在单个JVM中运行。考虑到这一点,我会说在Eclipse项目的类路径中包含最新的1.x hadoop-core。

无论如何MultipleOutputFormat还没有被移植到新的mapreduce包中(在1.1.2或2.0.4-alpha中都没有),所以你需要自己移植它或者找另一种方式(也许{{}} 1}} - Javadoc page has some usage on using MultipleOutputs