我注意到我团队中生成的许多文件都有.gz.bz2扩展名。这些是纯文本文件。目标是节省磁盘空间。我尝试了一个实验,我在同一组文件上做了gzip和gzip + bzip2:
$ du -h pat0/*
1.6M pat0/p0_c1.diag.csv.gz
1.5M pat0/p0_c2.diag.csv.gz
2.3M pat0/p0_c3.diag.csv.gz
1.8M pat0/p0_c4.diag.csv.gz
3.0M pat0/p0_c5.diag.csv.gz
3.2M pat0/p0_c6.diag.csv.gz
3.0M pat0/p0_c7.diag.csv.gz
3.0M pat0/p0_c8.diag.csv.gz
$ du -h pat0.bak/*
1.6M pat0.bak/p0_c1.diag.csv.gz.bz2
1.5M pat0.bak/p0_c2.diag.csv.gz.bz2
2.3M pat0.bak/p0_c3.diag.csv.gz.bz2
1.8M pat0.bak/p0_c4.diag.csv.gz.bz2
3.0M pat0.bak/p0_c5.diag.csv.gz.bz2
3.2M pat0.bak/p0_c6.diag.csv.gz.bz2
3.0M pat0.bak/p0_c7.diag.csv.gz.bz2
2.9M pat0.bak/p0_c8.diag.csv.gz.bz2
我没有看到显着的改善。如果没有预期的重要性,那么做.gz.bz2的优势是什么?为什么不只是一个?
答案 0 :(得分:1)
您已经完成了实验,结果很典型。仅当原始数据冗余到第一台压缩机的最大压缩能力饱和时,压缩已经压缩的文件才能提供不可忽略的增益。
如果你打算花时间来bzip2这些文件,你可以通过先解压缩然后应用bzip2来获得更好的结果。应用xz会更好。