我应该存储霍夫曼结果的文件类型是什么?

时间:2013-04-14 18:21:24

标签: java algorithm encoding huffman-code

我有树,每个字节的编码值,编码和解码表,以及编码文件的二进制文件中的编码文件,我有两个问题,我应该存储什么,只有解码表和编码文件应该够了吗?我应该在什么类型的文件中存储解码表和我的编码文件?我正在使用java。

1 个答案:

答案 0 :(得分:1)

如果生成规范树,则只需按照未编码的值按顺序存储每个字节的代码长度。由于霍夫曼码的最大长度是不同的未编码值的数量,并且最小长度是1,因此每个长度将适合单个字节。 (gzip库也是huffman编码长度以减少开销。)

假设代码是规范的,有一个简单的算法可以从长度列表中生成完整的树。

实际上,至少有两种可能的规范编码样式。在这两种情况下,给定长度的代码与原始未编码字节具有相同的顺序。在Wikipedia中描述的规范代码中,较短的代码在较长的代码之前(即最短的代码全部为零。但是更常见的规范形式在开头放置更长的代码,因此最长的代码全部为零。维基百科的文章包括用于生成其规范编码形式的算法;另一种形式同样简单。

最长代码优先形式的优点是,您可以证明只有任何代码的最后ceil(log2n)位可以为非零(n是字母大小);换句话说,每个代码由一些零位组成,后跟最多一个混合零和1的“字节”。此属性有助于加快解码速度。