在Hadoop / PIG中,gzip数据的压缩/解压缩是否透明?

时间:2012-03-27 19:45:31

标签: hadoop apache-pig

我在某处读到Hadoop内置支持压缩和解压缩但我猜它是关于mapper输出(通过设置一些属性)?

我想知道是否有任何特定的PIG加载/存储函数可用于读取压缩数据或以压缩方式输出数据?

1 个答案:

答案 0 :(得分:6)

PigStorage通过检查文件名来处理压缩输入:

  • *。bz2 / * .bz - org.apache.pig.bzip2r.Bzip2TextInputFormat
  • 其他所有内容都使用org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat - 如果安装了编解码器,这会扩展o.a.h.mapreduce.TextinputFormat,可以处理.gz和zippy文件

输出通过一些属性处理:

  • output.compression.enabled - true / false
  • output.compression.codec - 要使用的编解码器的类名(gzip为org.apache.hadoop.io.compress.GzipCodec

如果您对此感到满意,那么挖掘PigStorage.java可能会让您感兴趣