.gz文件的集合在非常特定的偏移处被非常少量的字节损坏

时间:2016-11-21 19:17:16

标签: compression gzip 7zip

我有大量的文件,都是相同的文件格式,有时为了节省空间而进行了压缩。我正在策划存档以消除重复。

对于大量重复文件(一个gzip,一个常规对),它们相差< 20个字节,从少量文件偏移量中的一个开始(一个偏移量是从文件开始的313656个字节;另一个更常见的偏移量是176287)。文件大小在1MB到200MB之间,未压缩。

我相信使用Ubuntu Linux版本的gzip和/或7zip命令行实用程序来压缩文件。我甚至无法确定gzipped版本是否是腐败版本。

有没有人知道会产生这种特定腐败模式的机制,然后我可以(a)在将来避免这种情况,并且(b)希望用来选择文件的“正确”(最可能是未损坏的)版本?

1 个答案:

答案 0 :(得分:1)

当您解压缩该对中的gzip成员时,您看到几个字节与该对中已经未压缩的其他成员不同?如果是这样,那么下一个问题是:gzip解压缩工作没有错误消息吗?如果是这样,那么gzip文件末尾的CRC-32值以及未压缩的长度都可以检出。在这种情况下,gzip文件是您应该保留的文件。

我无法知道或猜测可能导致未压缩文件损坏的原因。