Php在Java中的gzcompress

时间:2012-08-26 09:17:35

标签: java php compression gzip

我尝试在Java中压缩字符串,就像php的gzcompress函数那样。但是我无法在结果中获得相同的字节数组。

我的PHP代码:

<?php
echo 'This is a test';
$compressed = gzcompress('This is a test');
echo '<br>';
for ($i=0; $i<strlen($compressed); $i++) {
    echo '['.$i.'] = '.ord($compressed[$i]).'<br>';
}
?>

结果:

这是一个测试

[0] = 120 
[1] = 156 
[2] = 11 
[3] = 201 
[4] = 200 
[5] = 44 
[6] = 86 
[7] = 0 
[8] = 162 
[9] = 68 
[10] = 133 
[11] = 146 
[12] = 212 
[13] = 226 
[14] = 18 
[15] = 0 
[16] = 36 
[17] = 115 
[18] = 4 
[19] = 246 

Java代码:

public class Main {

    public static byte[] compressString(String uncompressedString) throws IllegalArgumentException, IllegalStateException {
        try {
            byte[] utfEncodedBytes = uncompressedString.getBytes();
            ByteArrayOutputStream baos = new ByteArrayOutputStream();
            try (GZIPOutputStream gzipOutputStream = new GZIPOutputStream(baos)) {
                gzipOutputStream.write(utfEncodedBytes);
                gzipOutputStream.finish();
            }
            return baos.toByteArray();
        } catch (Exception e) {
            throw new IllegalStateException("GZIP compression failed: " + e, e);
        }
    }

    public static void main(String[] args) {
        String input = "This is a test";
        System.out.println("Input:  " + input);
        byte[] compressed = compressString(input);
        for (int i = 0; i < compressed.length; i++) {
            System.out.println("[" + i + "] = " + (compressed[i] & 0xFF));
        }
    }
}

结果:

输入:这是一个测试

[0] = 31 
[1] = 139 
[2] = 8 
[3] = 0 
[4] = 0 
[5] = 0 
[6] = 0 
[7] = 0 
[8] = 0 
[9] = 0 
[10] = 11 
[11] = 201 
[12] = 200 
[13] = 44 
[14] = 86 
[15] = 0 
[16] = 162 
[17] = 68 
[18] = 133 
[19] = 146 
[20] = 212 
[21] = 226 
[22] = 18 
[23] = 0 
[24] = 50 
[25] = 159 
[26] = 122 
[27] = 192 
[28] = 14
[29] = 0 
[30] = 0 
[31] = 0 

压缩阵列的中间部分是相同的。但它们在开始和结束时都是不同的。

2 个答案:

答案 0 :(得分:4)

documentation for the gzcompress function明确指出它使用的压缩算法是zlib,即

  

与gzip压缩不同,后者包含一些标头数据。有关gzip压缩的信息,请参阅gzencode()。

Java的GZIPOutputStream执行正确的gzip压缩,包括正确的标头。 DeflaterOutputStream可以在没有gzip标头的情况下进行简单放气,这可能更接近你所追求的,或者有第三方解决方案,例如JZlib

答案 1 :(得分:2)

根据RFC http://www.gzip.org/zlib/rfc-gzip.html

它声明文件的开头应该包含。

  

ID1(身份证1)   ID2(标识2)       它们具有固定值ID1 = 31(0x1f,\ 037),ID2 = 139(0x8b,\ 213),以将文件标识为gzip格式。

     

CM(压缩方法)       这标识了文件中使用的压缩方法。保留CM = 0-7。 CM = 8表示“deflate”压缩方法,这是gzip通常使用的压缩方法,并在其他地方记录。

所以前三个字节应该是31,139,8。第四个字节应该是0-31之间的值(使用位0到4,并且保留5,6和7)。我怀疑你在PHP中看到的输出不是gz格式。