Question

我在c中有二进制数组，我想压缩数组，请提示我压缩二进制数组的算法。我使用过Lempel-Ziv-Welch（LZW）算法，但它不适合我，因为我的数据没有重复。

Answer 1

为什么不使用libz的deflate？作为额外的奖励，libz可用于几乎所有现有平台。

或更新LZMA？它击败了bzip2二进制数据压缩。

Answer 2

您可能没有重复，但数据中仍可能存在可以利用的模式。但是，这需要了解更多有关数据的信息，而不是重复信息。

如果您的数据实际上（或几乎）随机分布，那么压缩它将会遇到Pidgin Hole问题。这说明如果你只有X pidgins和Y个洞来放入它们，并且X＆gt;是的，那你没有足够的空间。在压缩中，这意味着你无法利用不存储某些pidgins的能力，这些pidgins是已经存在于孔中的同一对双胞胎，只需在解压缩算法中留下注释以克隆该pidgin。在霍夫曼编码中，所有pidgins都是pidgin文库中pidgins的克隆。在其他一些压缩方案中，一些pidgins可能是由其他pidgins组成的巨型pidgins。

Answer 3

你可以轻松地将空间缩小一半！

由于您的二进制数据没有重复，因此您的唯一选项是[0,1]，[1,0]。任何更多的东西都会重复零或一个。因此，你可以用0表示第一组，用1表示第二组。编码看起来像这样......

encode [0, 1] = 0
encode [1, 0] = 1

解码就是......

decode 0 = [0, 1]
decode 1 = [1, 0]

对于haskell语法很抱歉，在这种情况下它更具可读性。这会将您的两个元素数组转换为一个元素数组，并且可以存储在一半的空间中！魔法。

编辑：这忽略了[0]和[1]的简单情况。如果需要处理这些（虽然你不应该真正压缩1位），不可能获得比100％更好的压缩率。

Answer 4

如果您有二进制数据，则很可能将它们视为char[]。在您的问题和评论中，您声明（几乎）没有重复，只有在您没有超过256个（char）数据项时才可以重复。

但我猜您有更多数据，因此压缩是可能的。如果数据项的频率分布不均匀，您可能会对简单的Huffman coding感到幸运。

为了给您提供更精确的建议，我们需要有关您要压缩的数据类型的更多详细信息。

Answer 5

或者：您的二进制数据代表某些值。您可以减少所有值的位数。您需要知道可能的范围，并按位写入和读取数据。如果您在uint32中存储只需要几位的值，这可能会节省大量空间。

Answer 6

压缩不是魔术。如果您的数据完全是随机的，则没有可用的压缩算法可以使其更小。

大多数数据并非完全随机，但您需要发现表达它的最佳方式，以便能够检测到模式。图像和声音很常见，已经开发出标准算法，但是如果没有获得更多细节，就不能再说明你的具体问题了。

C中的二进制数组压缩

6 个答案: