我尝试在Java中压缩字符串,就像php的gzcompress函数那样。但是我无法在结果中获得相同的字节数组。
我的PHP代码:
<?php
echo 'This is a test';
$compressed = gzcompress('This is a test');
echo '<br>';
for ($i=0; $i<strlen($compressed); $i++) {
echo '['.$i.'] = '.ord($compressed[$i]).'<br>';
}
?>
结果:
这是一个测试
[0] = 120
[1] = 156
[2] = 11
[3] = 201
[4] = 200
[5] = 44
[6] = 86
[7] = 0
[8] = 162
[9] = 68
[10] = 133
[11] = 146
[12] = 212
[13] = 226
[14] = 18
[15] = 0
[16] = 36
[17] = 115
[18] = 4
[19] = 246
Java代码:
public class Main {
public static byte[] compressString(String uncompressedString) throws IllegalArgumentException, IllegalStateException {
try {
byte[] utfEncodedBytes = uncompressedString.getBytes();
ByteArrayOutputStream baos = new ByteArrayOutputStream();
try (GZIPOutputStream gzipOutputStream = new GZIPOutputStream(baos)) {
gzipOutputStream.write(utfEncodedBytes);
gzipOutputStream.finish();
}
return baos.toByteArray();
} catch (Exception e) {
throw new IllegalStateException("GZIP compression failed: " + e, e);
}
}
public static void main(String[] args) {
String input = "This is a test";
System.out.println("Input: " + input);
byte[] compressed = compressString(input);
for (int i = 0; i < compressed.length; i++) {
System.out.println("[" + i + "] = " + (compressed[i] & 0xFF));
}
}
}
结果:
输入:这是一个测试
[0] = 31
[1] = 139
[2] = 8
[3] = 0
[4] = 0
[5] = 0
[6] = 0
[7] = 0
[8] = 0
[9] = 0
[10] = 11
[11] = 201
[12] = 200
[13] = 44
[14] = 86
[15] = 0
[16] = 162
[17] = 68
[18] = 133
[19] = 146
[20] = 212
[21] = 226
[22] = 18
[23] = 0
[24] = 50
[25] = 159
[26] = 122
[27] = 192
[28] = 14
[29] = 0
[30] = 0
[31] = 0
压缩阵列的中间部分是相同的。但它们在开始和结束时都是不同的。
答案 0 :(得分:4)
documentation for the gzcompress function明确指出它使用的压缩算法是zlib,即
与gzip压缩不同,后者包含一些标头数据。有关gzip压缩的信息,请参阅gzencode()。
Java的GZIPOutputStream执行正确的gzip压缩,包括正确的标头。 DeflaterOutputStream可以在没有gzip标头的情况下进行简单放气,这可能更接近你所追求的,或者有第三方解决方案,例如JZlib。
答案 1 :(得分:2)
根据RFC http://www.gzip.org/zlib/rfc-gzip.html
它声明文件的开头应该包含。
ID1(身份证1) ID2(标识2) 它们具有固定值ID1 = 31(0x1f,\ 037),ID2 = 139(0x8b,\ 213),以将文件标识为gzip格式。
CM(压缩方法) 这标识了文件中使用的压缩方法。保留CM = 0-7。 CM = 8表示“deflate”压缩方法,这是gzip通常使用的压缩方法,并在其他地方记录。
所以前三个字节应该是31,139,8。第四个字节应该是0-31之间的值(使用位0到4,并且保留5,6和7)。我怀疑你在PHP中看到的输出不是gz格式。