Hadoop和Amazon EMR / S3中的每个文件的单独输出

时间:2014-04-19 16:51:24

标签: hadoop amazon-web-services amazon-s3 hadoop-streaming amazon-emr

我正在开发一个使用Hadoop分析书籍中的单词的项目。我有一个类似于标准字数例子(see here)的程序。程序当前计算目录中所有文件中的所有单词,并将它们组合在一起。但是,我还需要为每个处理过的文件获取字数和单个输出,或者至少为我提供每个文件字数的东西。我怎么能这样做?

1 个答案:

答案 0 :(得分:1)

  

看起来您正在寻找MultipleOutputFormat

     

这里有alerady impplementation代码link1并且完整   这里的解释和示例代码link2。只需将输出文件映射为   输入文件名或任何你想要的,文件将得到   每个组的“/ outputfolder / part-nnnnn”,名称“part”可以更改,   其中nnnnn是与reduce任务关联的分区ID。这个   无法躲避,你必须在HDFS上重命名/合并这些文件。