通过Mapreduce压缩解压缩Hdfs文件时附加的选项卡分隔列

时间:2015-10-19 10:09:14

标签: java hadoop mapreduce

我正在使用

以Bzip2格式压缩Hdfs上的文本文件
FileOutputFormat.setCompressOutput(jobConf, true);  
FileOutputFormat.setOutputCompressorClass(jobConf,BZip2Codec.class);

使用mapreduce解压缩

TextInputFormat.setInputPaths(jobConf,"//Bizip file Path");     
FileOutputFormat.setOutputPath(jobConf, new Path(outputFilePath));

但输出包含额外的制表符分隔列

Input - 1,XYZ
        2,ABC
Output- 0 -> 1,XYZ
        11-> 2,ABC

虽然使用unix命令bzip2 -k /filename.txt 和b unzip2 /filename.bz2没有添加其他数据。

1 个答案:

答案 0 :(得分:0)

0,11是行偏移量。如果您不需要在BZip2Codec.class中将输出密钥设置为NullWritable