应用错误收集

时间：2015-10-11 00:21:00

标签： compression

不是一个编程问题，而是一个“我无法相信我的眼球”的问题。

基本上，如果我可以压缩一些字段，我想看看我可以为搜索引擎项目节省多少空间。输入zlib，使用“compress”函数将样本数据的大小从~7mb减少到~7kb，我喜欢“gtf out of here”。样本数据是近200万个整数ID的列表，按升序排列，最大值为~800万。

要仔细检查，我再次压缩数据，保存在一个文件中，在另一个程序中打开压缩数据，解压缩并检查错误，什么都没有，它完美无缺。我仍然无法绕过它，我的意思是，我的测试数据可以表征为可预测但99.9％的压缩率？

我是否会再次产生幻觉，或者我是否遗漏了什么或什么？

答案 0 :(得分：1)

您的角色空间由0到9之间的数字组成，大多数位于底部，除了最后几位之外，您的文件的大块可能还有很多重复数字。

为什么你会感到惊讶，从256个可能的角色到10个压缩相对容易？

答案 1 :(得分：0)

实际上这听起来有点奇怪。事实上，zlib会压缩永远重复大约1000：1的相同字节的字符串，但大多数其他数据不能很好地压缩。您可能需要检查数据，看看它是否真的是您认为的。