chardet 1.0.1

Question

有没有办法识别Python中的文本文件是否为UTF-8？

如果文件是UTF-8，我真的很想得到。我不需要检测其他编码。

Answer 1

您在评论中提到您只需要检测UTF-8。如果你知道替代方案只包含单字节编码，那么就有一种解决方案可以正常工作。

如果你知道它是UTF-8或单字节编码，如latin-1，那么先尝试以UTF-8打开它，然后再打开其他编码。如果文件仅包含ASCII字符，则最终将以UTF-8打开，即使它是用作其他编码。如果它包含任何非ASCII字符，则几乎总能正确检测两者之间的正确字符集。

try:
    # or codecs.open on Python <= 2.5
    # or io.open on Python > 2.5 and <= 2.7
    filedata = open(filename, encoding='UTF-8').read() 
except:
    filedata = open(filename, encoding='other-single-byte-encoding').read()

最好的办法是直接或通过BeautifulSoup的UnicodeDamnit使用chardet package from PyPI：

chardet 1.0.1

通用编码检测器

检测：


ASCII，UTF-8，UTF-16（2种变种），UTF-32（4种变种）

Big5，GB2312，EUC-TW，HZ-GB-2312，ISO-2022-CN（繁体中文和简体中文）

EUC-JP，SHIFT_JIS，ISO-2022-JP（日文）

EUC-KR，ISO-2022-KR（韩文）

KOI8-R，MacCyrillic，IBM855，IBM866，ISO-8859-5，windows-1251（Cyrillic）

ISO-8859-2，windows-1250（匈牙利语）

ISO-8859-5，windows-1251（保加利亚语）

windows-1252（英文）

ISO-8859-7，windows-1253（希腊文）

ISO-8859-8，windows-1255（视觉和逻辑希伯来语）

TIS-620（泰国语）


需要Python 2.1或更高版本

但是，有些文件在多种编码中有效，因此chardet不是灵丹妙药。

Answer 2

可靠？否。

一般来说，字节序列没有意义，除非你知道如何解释它 - 这适用于文本文件，还有整数，浮点数等。

但是，通过查看字节顺序标记（如果有的话）和文件的第一个块（以查看哪个编码产生最明智的字符），可以猜测文件的编码。 chardet库非常擅长这一点，但请注意它只是一种启发式算法，虽然它是一个相当强大的启发式算法。

如何检测文件是否使用UTF-8编码？

2 个答案:

chardet 1.0.1