将多个.deflate文件转换为ubuntu中的一个gzip文件

时间:2014-12-04 04:05:16

标签: hadoop gzip deflate

我运行了一个hadoop作业,它生成了多个.deflate文件。现在这些文件存储在S3上。所以,我无法运行hadoop fs -text /somepath命令它将采用hdfs路径。现在,我想将.sflate格式的s3上存储的多个文件转换为一个gzip文件。

1 个答案:

答案 0 :(得分:-1)

如果你使用GzipCodec制作gzip文件,你可以简单地将它们连接起来制作一个大的gzip文件。

您可以使用gzip标头和预告片封装deflate流,如RFC 1952中所述。固定的10字节头,以及根据未压缩数据计算的8字节尾部。因此,您需要解压缩每个.deflate流,以便计算其CRC-32和未压缩长度以放入预告片。