如何将一些文本可逆地压缩为更少的ASCII字符?

时间:2011-01-27 03:00:34

标签: ruby algorithm

我想使用任意字符串的ASCII文本,例如“Hello world”,并将其压缩为具有较少字符的版本(尽可能少),但是它可以解压缩。压缩版本应仅由ascii字符组成。有没有办法实现这一点,尤其是在Ruby中?

4 个答案:

答案 0 :(得分:8)

如果你知道只使用ASCII字符,那就是每个字节的7个低位。通过位操作,您可以将每8个字节混合为7个(节省12.5%)。如果你可以把它放到一个较小的范围内(只有64个有效字符),你可以删除另一个字节。

但是,因为您希望压缩的表单只包含ASCII字符,所以会丢失一个字节 - 除非您的输入可以限制为64个字符(例如,有损压缩用某些字符替换其他字符,仅以小写字母等存储。)

如果您的字符串不大(> 1k),那么由于标题的大小,使用gzip / bzip2等节省的成本最低。如果你有一个预定义的字典用作霍夫曼表,你可能会得到一些压缩,但在其他情况下,可以对原始文本臃肿。

事先讨论SO An efficient compression algorithm for short text strings

答案 1 :(得分:4)

有许多优秀的文本压缩算法,如Huffman encodingLZW,它们擅长将文本字符串压缩为比标准ASCII编码少得多的位串。一旦进行了这样的编码,就可以将bitstring分成7位组,将它们打包成标准的ASCII字符。我确信那里有图书馆可以做到这一点,但我不是一个Ruby编码器,也不知道我的头脑。

答案 2 :(得分:1)

最简单的方法是使用标准算法对其进行压缩,然后对结果进行base64编码。这对于像'Hello world'这样简短的字符串来说不太可能有帮助 - 在这个大小的情况下,除了所有字符串都有类似的受限字符集或模式之外,你可以做很少的事情来减小大小像霍夫曼编码可以利用。

答案 3 :(得分:0)

如果你的语言是英语,那么如果你的单词保持明确,那么你可以通过留下常用字符来逃避。例如,如果您的字典仅包含Hello以匹配Hll和世界以匹配wrld,则“Hello world”可能变为“Hll wrld”。像阿拉伯语这样的闪族语言在他们的书面语言中实际上没有人声,人们仍然设法阅读它们。此外,其他规则(如单词应该是大写的)可用于将字符集缩减为小写字符(假设给定的文本遵循这些规则)。

此外,虽然逐字节压缩适用于文本,但是如果对整个单词进行编码,实际的自然语言可以被更好地压缩,因为词汇量的大小非常有限(如果你查看一组有限的文本,则更加有限) 。但这不是问题,我在这里偏离主题。