应用错误收集

适用于小块数据的良好压缩算法？（大约2k）

时间：2011-09-29 16:50:02

标签： algorithm compression

我有一个系统，一台机器以包含整数和长整数的对象的形式生成小块数据。这些块被传递给另一个服务器，后者又将它们分发到其他地方。

我想压缩这些对象，以减少传递服务器上的内存负载。我知道像deflate这样的压缩算法需要构建一个字典，所以这样的东西对这么小的数据不起作用。

是否有任何算法可以有效地压缩此类数据？

如果没有，我可以做的另一件事就是将这些块批量处理为对象数组，并在数组达到一定大小后对其进行压缩。 但我不愿意这样做因为我必须更改现有系统中的接口。单独压缩它们不需要任何界面更改，这是所有设置的方式。

不是我认为这很重要，但目标系统是Java。

编辑：Elias gamma coding会对这种情况最好吗？

由于

4 个答案:

答案 0 :(得分：3)

如果您认为将数据包减少到其熵级别是最好的，那么您可以尝试简单的霍夫曼压缩。

要及早了解这会压缩的程度，您可以通过Huff0传递数据包： http://fastcompression.blogspot.com/p/huff0-range0-entropy-coders.html

这是一个简单的0阶霍夫曼编码器。所以结果将具有代表性。

有关如何有效使用数据特征的更具体的想法，建议稍微描述数据包包含的数据及其生成方式（正如您在注释中所做的那样，因此它们是整数（ 4个字节？）和长（8个字节？）），然后提供一个或几个样本。

答案 1 :(得分：2)

听起来您正在考虑通用压缩算法。压缩小块数据的最有效方法是构建一个知道数据结构的专用压缩器。

重要的是，您需要将您使用的编码与您希望从数据中分配的值进行匹配：要从Elias gamma编码中获得良好的结果，您需要确保您编码的值是小的正整数...

如果同一块中的不同整数不是完全独立的（例如，如果您的数组表示时间序列），您可以使用它来改善压缩（例如，时间序列中连续值之间的差异趋势小的签名整数）。但是，由于每个块都需要独立压缩，因此无法在连续块之间采用之间的差异。

如果您担心压缩器可能变成“扩展器”，则可以添加初始标志以指示数据是压缩还是未压缩。然后，在最糟糕的情况下，您的数据根本不适合您的压缩模型，您可以随时发送并发送未压缩的版本;你最糟糕的开销就是旗帜的大小......

答案 2 :(得分：1)

Elias Gamma Coding实际上可能会增加数据的大小。

你的数字已经有上限（无论是适合4或大概8字节的int / long）。此方法编码您的数字的长度，然后是您的数字（可能不是您想要的）。如果你得到很多小值，它可能会使事情变小。如果你也得到大值，它可能会增加大小（8字节无符号最大值几乎会变大两倍）。

查看数据包的entropy。如果它接近最大值，压缩将毫无用处。否则，请尝试使用不同的GP压缩机。我不确定压缩和解压缩所花费的时间是否值得减小尺寸。

答案 3 :(得分：1)

我会仔细查看压缩库的选项，例如deflateSetDictionary（）和http://www.zlib.net/manual.html中的标志Z_FILTERED。如果您可以在源代码中分发 - 或者硬连线 - 提前向发送方和接收方提供一致的字典，并且如果该字典代表真实数据，那么您应该获得适当的压缩节省。糟糕 - 在Java中查看java.util.zip.Deflater.setDictionary（）和FILTERED。

适用于小块数据的良好压缩算法？ （大约2k）

4 个答案:

适用于小块数据的良好压缩算法？（大约2k）