使用Oozie组合输出文件部分

时间:2013-03-05 21:39:21

标签: hadoop oozie

是否可以使用Oozie将MapReduce作业的输出连接到单个文件中?可以说我有输出......

part-r-00000
part-r-00001
part-r-00002

我只是想......

output.csv

我知道我可以将它们作为hadoop fs -getmerge的单个文件删除,但我很好奇是否可以使用工作流应用程序和HDFS。

2 个答案:

答案 0 :(得分:2)

我能想到两个简单的选择:

  1. 修改产生此输出的作业以使用单个减速器
  2. 使用身份映射器,身份缩减器和单个缩减器
  3. 运行map-reduce操作

答案 1 :(得分:0)

您可以使用pig或Java来调用

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.html#concat-org.apache.hadoop.fs.Path-org.apache.hadoop.fs.Path:A-

或者可以将它添加到你自己的Oozie fs-action的分支中。

或者,使用webhdfs: http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Concat_Files

您可以在shell或ssh操作中包装该curl调用。