Question

压缩文件可以分为以下逻辑组
一个。您正在处理的操作系统（* ix，Win）等湾不同类型的压缩算法（即.zip，.Z，.bz2，.rar，.gzip）。至少来自大多数使用压缩文件的标准列表 C。然后我们有tar球机制 - 我认为没有压缩。但它更像是连接。

现在，如果我们开始解决上面的压缩文件集，一个。选项（a）将由python处理，因为它是与平台无关的语言湾选项（b）和（c）似乎有问题。

我需要什么
如何识别文件类型（压缩类型）然后对它们进行UN压缩？

喜欢：

fileType = getFileType(fileName)  
switch(fileType):  
case .rar:  unrar....
case .zip:  unzip....

etc

所以基本问题是我们如何根据文件识别压缩算法（假设没有提供扩展或不正确）？在python中有没有特定的方法呢？

Answer 1

This page有一个＆＃34;魔法＆＃34;文件签名。抓住你需要的那些并将它们放入如下的字典中。然后我们需要一个将dict键与文件开头匹配的函数。我已经写了一个建议，但可以通过将magic_dict预处理到例如{...}来优化它。一个巨大的编译正则表达式。

magic_dict = {
    "\x1f\x8b\x08": "gz",
    "\x42\x5a\x68": "bz2",
    "\x50\x4b\x03\x04": "zip"
    }

max_len = max(len(x) for x in magic_dict)

def file_type(filename):
    with open(filename) as f:
        file_start = f.read(max_len)
    for magic, filetype in magic_dict.items():
        if file_start.startswith(magic):
            return filetype
    return "no match"

此解决方案应该是跨平台的，当然不依赖于文件扩展名，但它可能会给具有随机内容的文件带来误报，这些内容恰好以某些特定的魔术字节开头。

Answer 2

根据lazyr的回答和我的评论，这就是我的意思：

class CompressedFile (object):
    magic = None
    file_type = None
    mime_type = None
    proper_extension = None

    def __init__(self, f):
        # f is an open file or file like object
        self.f = f
        self.accessor = self.open()

    @classmethod
    def is_magic(self, data):
        return data.startswith(self.magic)

    def open(self):
        return None

import zipfile

class ZIPFile (CompressedFile):
    magic = '\x50\x4b\x03\x04'
    file_type = 'zip'
    mime_type = 'compressed/zip'

    def open(self):
        return zipfile.ZipFile(self.f)

import bz2

class BZ2File (CompressedFile):
    magic = '\x42\x5a\x68'
    file_type = 'bz2'
    mime_type = 'compressed/bz2'

    def open(self):
        return bz2.BZ2File(self.f)

import gzip

class GZFile (CompressedFile):
    magic = '\x1f\x8b\x08'
    file_type = 'gz'
    mime_type = 'compressed/gz'

    def open(self):
        return gzip.GzipFile(self.f)


# factory function to create a suitable instance for accessing files
def get_compressed_file(filename):
    with file(filename, 'rb') as f:
        start_of_file = f.read(1024)
        f.seek(0)
        for cls in (ZIPFile, BZ2File, GZFile):
            if cls.is_magic(start_of_file):
                return cls(f)

        return None

filename='test.zip'
cf = get_compressed_file(filename)
if cf is not None:
    print filename, 'is a', cf.mime_type, 'file'
    print cf.accessor

现在可以使用cf.accessor访问压缩数据。所有模块都提供了类似的方法，如'read（）'，'write（）'等。

Answer 3

这是一个复杂的问题，取决于许多因素：最重要的是您的解决方案需要多么便携。

在给定文件的情况下查找文件类型的基础是在文件中查找标识头，通常称为"magic sequence" or signature header，标识文件属于某种类型。如果可以避免，则通常不使用其名称或扩展名。对于某些文件，Python内置了这些文件。例如，要处理.tar文件，您可以使用tarfile模块，该模块具有方便的is_tarfile方法。有一个名为zipfile的类似模块。这些模块还允许您使用纯Python提取文件。

例如：

f = file('myfile','r')
if zipfile.is_zipfile(f):
    zip = zipfile.ZipFile(f)
    zip.extractall('/dest/dir')
elif tarfile.is_tarfile(f):
    ...

如果您的解决方案仅适用于Linux或OSX，那么还有file命令可以为您完成大量工作。您还可以使用内置工具解压缩文件。如果您只是在做一个简单的脚本，这种方法更简单，可以提供更好的性能。

Answer 4

可接受的解决方案看起来不错，但是它不适用于python-3，这是使之起作用的修改-使用二进制I / O而不是字符串：

magic_dict = {
    b"\x1f\x8b\x08": "gz",
    b"\x42\x5a\x68": "bz2",
    b"\x50\x4b\x03\x04": "zip"
    }
''' SKIP '''
    with open(filename, "rb") as f:
''' The rest is the same '''

Answer 5

“a”完全是假的。

“b”可以很容易地解释，因为“.zip”并不意味着该文件实际上是一个zip文件。它可以是带有zip扩展名的JPEG（如果你愿意，可以用于混淆目的）。

您实际上需要检查文件中的数据是否与预期的扩展数据相匹配。另请查看magic byte。

Answer 6

如果练习只是为了标记文件来识别它，那么你有很多答案。如果要解压缩存档，为什么不尝试捕获execptions / errors？例如：

>>> tarfile.is_tarfile('lala.txt')
False
>>> zipfile.is_zipfile('lala.txt')
False
>>> with bz2.BZ2File('startup.bat','r') as f:
...    f.read()
...
Traceback (most recent call last):
  File "<stdin>", line 2, in <module>
IOError: invalid data stream

Answer 7

2019更新：
我一直在寻找一种解决方案，以检测.csv文件是否已压缩。 @Lauritz给出的答案给我抛出了错误，我想这仅仅是因为文件读取的方式在过去7年中发生了变化。

该库对我来说非常理想！ https://pypi.org/project/filetype/

Python - 识别压缩文件类型和解压缩的机制

7 个答案: