Question

我正在与服务器连接，该服务器要求使用 Deflate 算法（Huffman编码+ LZ77）压缩发送给它的数据，并且还发送我需要的数据 Inflate 。

我知道Python包含Zlib，并且Zlib中的C库支持对 Inflate 和 Deflate 的调用，但这些显然不是由Python Zlib模块提供的。它确实提供了压缩和解压缩，但当我拨打以下电话时：

result_data = zlib.decompress( base64_decoded_compressed_string )

我收到以下错误：

Error -3 while decompressing data: incorrect header check

Gzip并没有更好;打电话时如：

result_data = gzip.GzipFile( fileobj = StringIO.StringIO( base64_decoded_compressed_string ) ).read()

我收到错误：

IOError: Not a gzipped file

这是有道理的，因为数据是 Deflated 文件而不是真正的 Gzipped 文件。

现在我知道有一个 Deflate 实现可用（Pyflate），但我不知道 Inflate 实现。

似乎有几个选择：

在Python中查找 Inflate 和 Deflate 的现有实现（理想）
将我自己的Python扩展编写到包含 Inflate 和 Deflate
调用可以从命令行执行的其他内容（例如Ruby脚本，因为zlib中的 Inflate / Deflate 调用完全包含在Ruby中）
？

我正在寻求解决方案，但缺乏解决方案我会感谢见解，建设性意见和想法。

其他信息：为了我需要的目的，放松（和编码）一个字符串的结果应该给出与下面的C＃代码片段相同的结果，其中输入参数是一个UTF字节数组，对应于要压缩的数据：

public static string DeflateAndEncodeBase64(byte[] data)
{
    if (null == data || data.Length < 1) return null;
    string compressedBase64 = "";

    //write into a new memory stream wrapped by a deflate stream
    using (MemoryStream ms = new MemoryStream())
    {
        using (DeflateStream deflateStream = new DeflateStream(ms, CompressionMode.Compress, true))
        {
            //write byte buffer into memorystream
            deflateStream.Write(data, 0, data.Length);
            deflateStream.Close();

            //rewind memory stream and write to base 64 string
            byte[] compressedBytes = new byte[ms.Length];
            ms.Seek(0, SeekOrigin.Begin);
            ms.Read(compressedBytes, 0, (int)ms.Length);
            compressedBase64 = Convert.ToBase64String(compressedBytes);
        }
    }
    return compressedBase64;
}

为字符串“deflate and encode me”运行此.NET代码会得到结果

7b0HYBxJliUmL23Ke39K9UrX4HShCIBgEyTYkEAQ7MGIzeaS7B1pRyMpqyqBymVWZV1mFkDM7Z28995777333nvvvfe6O51OJ/ff/z9cZmQBbPbOStrJniGAqsgfP358Hz8iZvl5mbV5mi1nab6cVrM8XeT/Dw==

当“deflate and encode me”通过Python Zlib.compress（）然后运行base64编码时，结果为“eJxLSU3LSSxJVUjMS1FIzUvOT0lVyE0FAFXHB6k =”。

很明显，zlib.compress（）不是与标准Deflate算法相同算法的实现。

更多信息：

.NET解压数据的前2个字节（“7b0HY ...”），在b64解码后为0xEDBD，与Gzip数据（0x1f8b），BZip2（0x425A）数据或Zlib（0x789C）不对应数据

在b64解码后，Python压缩数据的前2个字节（“eJxLS ...”）为0x789C。这是一个Zlib标题。

解决

要处理原始deflate和inflate，没有标题和校验和，需要执行以下操作：

on deflate / compress：剥离前两个字节（标题）和最后四个字节（校验和）。

在膨胀/解压缩时：窗口大小有第二个参数。如果此值为负，则会抑制标题。这是我目前的方法，包括base64编码/解码 - 并正常工作：

import zlib
import base64

def decode_base64_and_inflate( b64string ):
    decoded_data = base64.b64decode( b64string )
    return zlib.decompress( decoded_data , -15)

def deflate_and_base64_encode( string_val ):
    zlibbed_str = zlib.compress( string_val )
    compressed_string = zlibbed_str[2:-4]
    return base64.b64encode( compressed_string )

Answer 1

您仍然可以使用zlib模块来扩充/收缩数据。 gzip模块在内部使用它，但添加了一个文件头以使其成为gzip文件。查看gzip.py文件，这样的事情可以起作用：

import zlib

def deflate(data, compresslevel=9):
    compress = zlib.compressobj(
            compresslevel,        # level: 0-9
            zlib.DEFLATED,        # method: must be DEFLATED
            -zlib.MAX_WBITS,      # window size in bits:
                                  #   -15..-8: negate, suppress header
                                  #   8..15: normal
                                  #   16..30: subtract 16, gzip header
            zlib.DEF_MEM_LEVEL,   # mem level: 1..8/9
            0                     # strategy:
                                  #   0 = Z_DEFAULT_STRATEGY
                                  #   1 = Z_FILTERED
                                  #   2 = Z_HUFFMAN_ONLY
                                  #   3 = Z_RLE
                                  #   4 = Z_FIXED
    )
    deflated = compress.compress(data)
    deflated += compress.flush()
    return deflated

def inflate(data):
    decompress = zlib.decompressobj(
            -zlib.MAX_WBITS  # see above
    )
    inflated = decompress.decompress(data)
    inflated += decompress.flush()
    return inflated

我不知道这是否与服务器所需的完全一致，但这两个函数能够往返我试过的任何数据。

参数直接映射到传递给zlib库函数的内容。

Python ⇒ C
zlib.compressobj(...)⇒deflateInit(...)
compressobj.compress(...)⇒deflate(...)
zlib.decompressobj(...)⇒inflateInit(...)
decompressobj.decompress(...)⇒inflate(...)

构造函数创建结构并使用默认值填充它，并将其传递给init函数。 compress / decompress方法会更新结构并将其传递给inflate / deflate。

Answer 2

这是MizardX答案的附加组件，给出了一些解释和背景。

请参阅http://www.chiramattel.com/george/blog/2007/09/09/deflatestream-block-length-does-not-match.html

根据RFC 1950，以默认方式构造的zlib流由以下内容组成：

一个2字节的标题（例如0x78 0x9C）
放气流 - 请参阅RFC 1951
未压缩数据的Adler-32校验和（4个字节）

C＃DeflateStream正在（你猜对了）一个放气流。 MizardX的代码告诉zlib模块数据是原始的deflate流。

观察：（1）有人希望C＃“通缩”方法产生更长的字符串只发生短输入（2）使用没有Adler-32校验和的原始deflate流？有点冒险，除非用更好的东西取代。

<强>更新

错误消息Block length does not match with its complement

如果您尝试使用C＃DeflateStream来扩充某些压缩数据并获得该消息，那么您很可能会为其提供一个zlib流，而不是一个deflate流。

请参阅How do you use a DeflateStream on part of a file?

同时将错误消息复制/粘贴到Google搜索中，您将获得大量点击（包括此答案前面的点击），说的话很多。

“网站”使用的Java Deflater ... ... C＃DeflateStream“非常简单，已经针对Java实现进行了测试”。该网站使用以下哪种可能的Java Deflater构造函数？

public Deflater(int level, boolean nowrap)

使用指定的压缩级别创建新的压缩器。如果'nowrap'为真，那么将不使用ZLIB头和校验和字段以支持GZIP和PKZIP中使用的压缩格式。

public Deflater(int level)

使用指定的压缩级别创建新的压缩器。压缩数据将以ZLIB格式生成。

public Deflater()

使用默认压缩级别创建新压缩器。压缩数据将以ZLIB格式生成。

抛弃2字节zlib标头和4字节校验和后，

单行deflater ：

uncompressed_string.encode('zlib')[2:-4] # does not work in Python 3.x

或

zlib.compress(uncompressed_string)[2:-4]

Python：Inflate和Deflate实现

2 个答案: