交错/多路​​复用压缩流

时间:2018-05-23 13:59:49

标签: algorithm stream compression deflate lzw

我正在寻找一个好的压缩算法或库,它可以让我将几个压缩的数据流交错到单个数据流中,没有性能或压缩损失

更多上下文:我一直致力于专用于特定应用程序的压缩格式。这种压缩格式对数据执行一系列特定于域的分析,然后将压缩数据作为一组流输出,每个流都被压缩(通常使用LZW,但这不是一成不变的)。其中一个流主要流包含一堆令牌。主流中的每个令牌都包含我需要推断哪些辅助流包含下一个令牌的信息,我需要从该辅助流中读取多少解压缩的字节,以及我需要做什么这个标记。

到目前为止,这么好,但我不想将我的最终数据作为一堆连接流发送,因为这需要我接收整个数据才能有意义地处理它。相反,我想将它们作为单个流发送,我可以在收到它时进行解码和处理。所以这基本上就像发送一些东西:

  • 来自主流的一个令牌(使用用于主流的字典压缩);
    • 好吧,这是令牌“FooBar”,我知道一个令牌“FooBar”后面总是跟着来自流“Foo”的两个令牌,一个来自流“Bar”的令牌;
  • 来自流“Foo”的两个令牌(使用用于流“Foo”的字典压缩);
  • 来自流“Bar”的一个令牌(使用用于流“Bar”的字典压缩);
  • 来自主流的一个令牌(返回主流的压缩);
  • ...

这里的复杂之处在于,任何有趣的压缩算法都不会轻易地将一个令牌转换为具有明确定义的令牌结束的一个或多个字节。有时候,单个令牌会有几个数据包。有时,一个数据包将包含许多令牌。幸运的是,我的代币大小很容易预测。另一方面,为了节省空间,每当我添加一个数据包时,我都无法写出每个数据包的大小或数据包的数量。

那么,如何将所有压缩流复用/交织成单个流而无需添加大量元数据?我的印象是,这基本上是多媒体格式解决的问题,但我对该主题没有领域知识。有什么建议吗?我对算法,图书馆和论文感兴趣。

1 个答案:

答案 0 :(得分:1)

例如,使用zlib,您可以为三个流同时运行三个deflate实例。使用deflate,您可以一次压缩一个deflate块(使用Z_BLOCK),并使用Z_SYNC_FLUSH将其带到一个空的存储块的字节边界。您可以使用一个字节的标头对这些放气块进行交错,每个标识用于标识三个流中的哪一个。然后你的解压缩器读入这些deflate块并用三个膨胀实例解压缩它们,从它们可用的各个未压缩数据块中提取你的标记。