应用错误收集

Hadoop和Amazon EMR / S3中的每个文件的单独输出

时间：2014-04-19 16:51:24

标签： hadoop amazon-web-services amazon-s3 hadoop-streaming amazon-emr

我正在开发一个使用Hadoop分析书籍中的单词的项目。我有一个类似于标准字数例子（see here）的程序。程序当前计算目录中所有文件中的所有单词，并将它们组合在一起。但是，我还需要为每个处理过的文件获取字数和单个输出，或者至少为我提供每个文件字数的东西。我怎么能这样做？

1 个答案:

答案 0 :(得分：1)

看起来您正在寻找MultipleOutputFormat

这里有alerady impplementation代码link1并且完整   这里的解释和示例代码link2。只需将输出文件映射为   输入文件名或任何你想要的，文件将得到   每个组的“/ outputfolder / part-nnnnn”，名称“part”可以更改，   其中nnnnn是与reduce任务关联的分区ID。这个   无法躲避，你必须在HDFS上重命名/合并这些文件。