为什么我们不使用字排名进行字符串压缩?

时间:2012-10-17 19:22:17

标签: compression

我有3个主要问题:

假设我有一个大文本文件。 (1)用等级替换单词是压缩文件的有效方法吗?(得到了这个问题的答案。这是一个坏主意。)

另外,我提出了一种新的压缩算法。我阅读了一些广泛使用的现有压缩模型,我发现它们使用了一些非常先进的概念,如统计冗余和概率预测。我的算法不使用所有这些概念,而是在压缩和解压缩时需要遵循的一组相当简单的规则。 (2)我的问题是,在没有足够的现有压缩方案知识的情况下,我是否在浪费时间尝试提出新的压缩算法?

(3)此外,如果我设法成功压缩字符串,我可以将算法扩展到其他内容,如视频,图像等。

(据我所知,如果没有关于压缩算法的知识,第三个问题很难回答。但是我担心这个算法是如此简陋和新生,我对分享它感到羞耻。如果你有这个问题,请随意忽略第三个问题到)

3 个答案:

答案 0 :(得分:1)

你的意思是要按照频率排序的单词排序表,并为那些重复次数较多的单词分配较小的“符号”,从而减少需要传输的信息量吗?

这基本上就是Huffman Coding的工作方式,压缩的问题在于你总是点击limit somewhere along the road,当然,如果您尝试压缩的事物集合遵循particular pattern/distribution那么它可能真的很有效,但是对于一般用途(音频/视频/文本/加密数据似乎是随机的),没有(我相信不可能)“最佳”压缩技术。

答案 1 :(得分:1)

  1. 你的问题没有意义(见答案#2),但我会尝试改写,如果我抓住你的问题,你可以告诉我。使用单个单词的概率建模文本是否可以形成良好的文本压缩算法?答案:不会。这将是一个零阶模型,并且无法利用更高阶的相关性,例如跟随前一个单词的给定单词的条件概率。寻找匹配字符串和不同字符概率的简单现有文本压缩器可以表现得更好。

  2. 是的,在没有足够的现有压缩方案知识的情况下,您在浪费时间尝试提出新的压缩算法。您应首先了解随着时间的推移应用于模拟数据,文本和其他方法的技术,以及使用建模信息压缩数据的方法。在开发新方法之前,您需要研究已经研究了几十年的内容。

  3. 压缩部分可以延伸,但建模部分不会延伸。

答案 2 :(得分:0)

霍夫曼编码在字母上使用频率。您可以使用更多维度的单词或字母频率,即字母组合和频率组合。