如何将大量文件连接到Hadoop内部,没有映射或缩减

时间:2010-04-08 22:12:09

标签: hadoop

我正在尝试将多个输入目录中的多个文件合并到一个文件中,出于各种奇怪的原因我不会进入。我最初的尝试是写一个'nul'映射器和reducer,只是将输入复制到输出,但失败了。我最近的尝试是:

vcm_hadoop lester jar /vcm/home/apps/hadoop/contrib/streaming/hadoop-*-streaming.jar -input / cruncher / 201004/08/17 / 00 -output / lcuffcat9 -mapper / bin / cat -reducer NONE

但我最终得到了多个输出文件。有人知道如何将所有内容都哄骗到一个输出文件中吗?

1 个答案:

答案 0 :(得分:1)

保持猫咪的使用并使用单个猫减速器。确保将减速器数量设置为1。输出也将通过分拣机。

您需要使用reducer,因为您只能建议映射器的数量。

如果您不希望输出排序,您可以让您的映射器将文件名作为输入,从该文件中读取,并输出文件名和行号作为键,并输出文件中的一行作为值,并且reducer扔掉键并输出值。