我在某处读到Hadoop内置支持压缩和解压缩但我猜它是关于mapper输出(通过设置一些属性)?
我想知道是否有任何特定的PIG加载/存储函数可用于读取压缩数据或以压缩方式输出数据?
答案 0 :(得分:6)
PigStorage通过检查文件名来处理压缩输入:
org.apache.pig.bzip2r.Bzip2TextInputFormat
org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigTextInputFormat
- 如果安装了编解码器,这会扩展o.a.h.mapreduce.TextinputFormat
,可以处理.gz和zippy文件输出通过一些属性处理:
output.compression.enabled
- true / false output.compression.codec
- 要使用的编解码器的类名(gzip为org.apache.hadoop.io.compress.GzipCodec
)如果您对此感到满意,那么挖掘PigStorage.java可能会让您感兴趣