不是一个编程问题,而是一个“我无法相信我的眼球”的问题。
基本上,如果我可以压缩一些字段,我想看看我可以为搜索引擎项目节省多少空间。输入zlib,使用“compress”函数将样本数据的大小从~7mb减少到~7kb,我喜欢“gtf out of here”。样本数据是近200万个整数ID的列表,按升序排列,最大值为~800万。
要仔细检查,我再次压缩数据,保存在一个文件中,在另一个程序中打开压缩数据,解压缩并检查错误,什么都没有,它完美无缺。我仍然无法绕过它,我的意思是,我的测试数据可以表征为可预测但99.9%的压缩率?
我是否会再次产生幻觉,或者我是否遗漏了什么或什么?
答案 0 :(得分:1)
您的角色空间由0到9之间的数字组成,大多数位于底部,除了最后几位之外,您的文件的大块可能还有很多重复数字。
为什么你会感到惊讶,从256个可能的角色到10个压缩相对容易?
答案 1 :(得分:0)
实际上这听起来有点奇怪。事实上,zlib会压缩永远重复大约1000:1的相同字节的字符串,但大多数其他数据不能很好地压缩。您可能需要检查数据,看看它是否真的是您认为的。