标签: hadoop amazon-web-services amazon-s3 hadoop-streaming amazon-emr
我正在开发一个使用Hadoop分析书籍中的单词的项目。我有一个类似于标准字数例子(see here)的程序。程序当前计算目录中所有文件中的所有单词,并将它们组合在一起。但是,我还需要为每个处理过的文件获取字数和单个输出,或者至少为我提供每个文件字数的东西。我怎么能这样做?
答案 0 :(得分:1)
看起来您正在寻找MultipleOutputFormat 这里有alerady impplementation代码link1并且完整 这里的解释和示例代码link2。只需将输出文件映射为 输入文件名或任何你想要的,文件将得到 每个组的“/ outputfolder / part-nnnnn”,名称“part”可以更改, 其中nnnnn是与reduce任务关联的分区ID。这个 无法躲避,你必须在HDFS上重命名/合并这些文件。
看起来您正在寻找MultipleOutputFormat
MultipleOutputFormat
这里有alerady impplementation代码link1并且完整 这里的解释和示例代码link2。只需将输出文件映射为 输入文件名或任何你想要的,文件将得到 每个组的“/ outputfolder / part-nnnnn”,名称“part”可以更改, 其中nnnnn是与reduce任务关联的分区ID。这个 无法躲避,你必须在HDFS上重命名/合并这些文件。