应用错误收集

如何将大量文件连接到Hadoop内部，没有映射或缩减

时间：2010-04-08 22:12:09

标签： hadoop

我正在尝试将多个输入目录中的多个文件合并到一个文件中，出于各种奇怪的原因我不会进入。我最初的尝试是写一个'nul'映射器和reducer，只是将输入复制到输出，但失败了。我最近的尝试是：

vcm_hadoop lester jar /vcm/home/apps/hadoop/contrib/streaming/hadoop-*-streaming.jar -input / cruncher / 201004/08/17 / 00 -output / lcuffcat9 -mapper / bin / cat -reducer NONE

但我最终得到了多个输出文件。有人知道如何将所有内容都哄骗到一个输出文件中吗？

1 个答案:

答案 0 :(得分：1)

保持猫咪的使用并使用单个猫减速器。确保将减速器数量设置为1。输出也将通过分拣机。

您需要使用reducer，因为您只能建议映射器的数量。

如果您不希望输出排序，您可以让您的映射器将文件名作为输入，从该文件中读取，并输出文件名和行号作为键，并输出文件中的一行作为值，并且reducer扔掉键并输出值。