compression - 压缩几乎相同的大文件

时间：2018-10-23 20:51:50

标签： compression large-files

我有一堆大型HDF5文件（大约1.7G），它们共享许多内容–我猜每个文件的数据中有95％以上是彼此重复的。

我想将它们压缩为存档。我第一次尝试将GNU tar与-z选项（gzip）一起使用失败：当归档达到50G（可能是sysadmin施加的文件大小限制）时，该过程终止。显然，gzip无法利用这种设置下的文件几乎相同的事实。

压缩这些特定文件显然不需要非常花哨的压缩算法，但是需要 veerery 患者。有没有一种方法可以使gzip（或其他工具）检测到这些重复的大斑点，并避免在存档中重复这些斑点？

答案 0 :(得分：2)

听起来像您需要的是二进制diff程序。您可以为此搜索google，然后尝试在其中两个之间使用二进制差异，然后压缩其中之一和结果差异。您可能会喜欢上所有的组合，然后选择最小的组合进行压缩，然后只发送一份原始文件。