应用错误收集

使用Hadoop-streaming处理gzip文件

时间：2014-04-22 21:29:58

标签： hadoop mapreduce compression hadoop-streaming

我看到很多关于将hadoop MapReduce结果输出为gzip格式或任何其他压缩格式的帖子。但是，我没有看到hadoop-streaming如何读入（输入）压缩格式。我看到一些关于使用-jobconf stream.recordreader.compression=gzip http://mail-archives.apache.org/mod_mbox/hadoop-common-user/200907.mbox/%3C73e5a5310907141349k3329c5cua4bb58fcf103522@mail.gmail.com%3E来做输入部分的旧帖子。目前，我在Ubuntu LTS 12.04上使用Cloudera CDH 5。用python编写mapper和reducer。

1 个答案:

答案 0 :(得分：4)

不需要额外的命令行参数，Hadoop流式作业本身支持Gzip输入。将自动检测和解压缩Gzip文件。只需使用-input选项传递gzip文件即可。这是一个非常简单的例子：

$ hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -input /user/johndoe/test_input.gz -output /user/johndoe/output -mapper /bin/cat -reducer /usr/bin/wc

就输入而言，使用Python mapper和reducer不会改变任何东西。

我发现有一点需要注意，但尚未解决：使用带有-inputreader "StreamXmlRecordReader,begin=page,end=/page"选项的gzip输入不会产生任何输出。