当我像这样运行hadoop流时:
hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar
-Dmapred.reduce.tasks=16
-input foo
-output bar
-mapper "python zot.py"
-reducer gzip
我在输出目录中得到16个文件,唉,腐败:
$ hadoop fs -get bar/part-00012
$ file part-00012
gzip compressed data, from Unix
$ cat part-00012 | gunzip >/dev/null
gzip: stdin: invalid compressed data--format violated
当我在视觉上检查cat part-00012 | gunzip
的输出时,我看到看起来有点正确然后非常错误的部分,然后gunzip
就死了。
PS。我知道我可以使用mapred.output.compress=true
将我的数据集拆分为少量gzip压缩文件。
PPS。这是vw。