标签: compression
我想知道是否存在用于比较文件压缩格式的标准化方法。
是否存在可以比较压缩效率的标准文件集?
如果选择大量文件,您选择哪种文件类型来比较不同算法的压缩率是否有意义? (为了明确这一点:我知道如果你选择不同的文件,一种算法的压缩率会有所不同。我想知道一个算法可能对一组100,000个文件有5%的压缩率和算法b有2%,但对于另一组100,000个文件,算法a将有1%,算法b为2%。因此对于一个集合a更好,对于另一个b。这对于大量文件集可能吗?)
答案 0 :(得分:2)
虽然我不会说它是标准化的,但是有一些语料库经常被用来比较不同的压缩算法。例如检查卡尔加里语料库或坎特伯雷语料库。
即使您选择了大量文件,您选择的文件类型也很重要,因为压缩率会根据实际数据与压缩算法假设的基础模型的拟合程度而有所不同。
检查this site和this site,查看不同类型数据的压缩结果比较。