如何使用多个线程进行zlib压缩(相同的输入源)

时间:2015-06-12 01:37:44

标签: linux multithreading compression zlib

我的目标是在并行线程中压缩相同源的数据。 我已经定义了列表中的作业,这些作业具有读取信息(每个作业中500kb-1MB)。

我的压缩器线程将使用ZLIB压缩每个块的数据,并将其存储在相应作业的outbuf中。

现在,我想合并所有这些并创建一个标准ZLIB格式的输出文件。

从ZLIB RFC和浏览了pigzee的来源后,我明白了

ZLIB标题如下所示

     +---+---+
     |CMF|FLG| (2 bytes)
     +---+---+
     +---+---+---+---+
     |     DICTID    | (4 bytes. Present only when FLG.FDICT is set)
     +---+---+---+---+
     +=====================+
     |...compressed data...| (variable size of data)
     +=====================+
     +---+---+---+---+
     |     ADLER32   |  (4 bytes of variable data)
     +---+---+---+---+

就我而言,也没有字典。

因此,当我组合两个压缩单位时,所有单位的标题都是相同的。

因此,我正在进行以下操作。

  1. 对于第一个单元,我正在编写标题+压缩数据。

  2. 对于最后一个单位的第二个单位,我只写了压缩数据(没有标题,没有预告片)

  3. 完成所有单元后,我使用adlrer32_combine()并将所有作业输出数据的校验和转换为一个最终的adler 32,然后我用它更新输出文件在底部。

  4. 但问题是,我在deflate期间收到错误,说某些地方的数据无效。

    有人已经尝试过这样的事吗?任何相关信息都会非常有用。

1 个答案:

答案 0 :(得分:5)

您不能简单地连接原始deflate数据流。每个放气流都是自终止的,因此解压缩将在第一个流的末尾结束。

您需要更仔细地查看pigz代码,了解如何合并deflate流。您可以使用Z_SYNC_FLUSH完成最后一个块并将其带到字节边界而不结束deflate流。然后,您可以完成放气流,并剥离标记为结束块的最后一个空块。除了应该正常终止的最后一个deflate流。然后,您可以连接一系列 n-1 未终止的deflate流和最后一个 1 终止deflate流。