我有一堆大型HDF5文件(大约1.7G),它们共享许多内容–我猜每个文件的数据中有95%以上是彼此重复的。
我想将它们压缩为存档。
我第一次尝试将GNU tar
与-z
选项(gzip)一起使用失败:当归档达到50G(可能是sysadmin施加的文件大小限制)时,该过程终止。显然,gzip无法利用这种设置下的文件几乎相同的事实。
压缩这些特定文件显然不需要非常花哨的压缩算法,但是需要 veerery 患者。
有没有一种方法可以使gzip
(或其他工具)检测到这些重复的大斑点,并避免在存档中重复这些斑点?
答案 0 :(得分:2)
听起来像您需要的是二进制diff程序。您可以为此搜索google,然后尝试在其中两个之间使用二进制差异,然后压缩其中之一和结果差异。您可能会喜欢上所有的组合,然后选择最小的组合进行压缩,然后只发送一份原始文件。