这个文本压缩方案的名称是什么?

时间:2014-03-14 17:18:25

标签: algorithm compression text-compression

几年前,我读到了一个非常轻量级的文本压缩算法,现在我无法找到引用或记住它的名称。

它使用了每对连续字符之间的差异。例如,由于小写字母预测下一个字符也将是小写字母,因此差异往往很小。 (它可能在减去之前抛出前一个字符的低位;我不记得。)即时复杂性降低。它非常友好。

当然有一些铃声和口哨,以及产生比特流的细节,但它超级轻巧,适合嵌入式系统。没有重要的字典存储。我很确定我看到的摘要是在维基百科上,但我找不到任何东西。

我记得它是在谷歌发明的,但它不是Snappy

1 个答案:

答案 0 :(得分:2)

我认为你所关注的是BOCU,Binary-Ordered Compression for Unicode或其前身/接班人之一。特别是,

  

BOCU的基本结构很简单。在压缩一系列代码点时,从当前代码点中减去最后一个代码点,生成一个带符号的delta值,范围从-10FFFF到10FFFF。然后以一系列字节编码增量。小差异以少量字节编码;较大的差异以相继较大的字节数进行编码。