Question

当我使用python lxml库（最新版本）指定自己的编码时，出现了LookupError。

LookupError发生。参数：（“未知编码：'b'utf-8-sig”，）

parser = etree.XMLParser(encoding="utf-8-sig")
xml = etree.parse(source=response_bytes_io, parser=parser)

由于某种原因，lxml不知道'utf-8-sig'，尽管它是python 3的标准编码。请参见https://docs.python.org/3/library/codecs.html#standard-encodings

有什么办法解决这个问题吗？

Answer 1

一个很好的解决方案，即使我不明白为什么会起作用

长话短说，使用utf-8代替utf-8-sig，即使存在UTF-8编码的BOM，它也可以使用：

>>> data = b'\xef\xbb\xbf<test/>'
>>> lxml.etree.parse(io.BytesIO(data), parser=lxml.etree.XMLParser(encoding='utf-8'))
<lxml.etree._ElementTree object at 0x7f3403e47730>

请注意，它必须是utf-8，而不是utf8，即使后者通常被Python接受为别名：

>>> lxml.etree.parse(io.BytesIO(b'\xef\xbb\xbf<test/>'), parser=lxml.etree.XMLParser(encoding='utf8', remove_blank_text=True))
Traceback (most recent call last):
  ...
lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1

背景信息

lxml是libxml2库的包装器。因此，传递给encoding的{{1}}参数不是Python编码的名称，而是iconv编码的名称。我不得不深入研究the lxml source来解决这个问题，并可以通过与XMLParser，我的系统上的iconv支持，但Python不支持：

OSF00010004

我们可以使用>>> lxml.etree.parse(io.BytesIO(b'<test/>'), parser=lxml.etree.XMLParser(encoding='OSF00010004')) <lxml.etree._ElementTree object at 0x7f8baa6adc30> >>> b'<test/>'.decode('OSF00010004') Traceback (most recent call last): File "<stdin>", line 1, in <module> LookupError: unknown encoding: OSF00010004列出受支持的编码，但是没有Python的BOM剥离iconv -l等价物。显然，通过utf-8-sig就足够了。

值得一提的是，libxml2仅可用于UTF-8编码的字符串，正如我们可以从lxml FAQ中学到的那样：

libxml2内部使用的文本编码为UTF-8，因此从Unicode文件进行解析意味着Python首先从文件中读取数据块，然后将其解码到新的缓冲区中，然后将其复制到新的unicode中。字符串对象，只是为了让libxml2制作另一个副本，同时将其编码为UTF-8以进行解析。

这会影响性能，如FAQ条目详细信息。

我了解的简单解决方法

我们可以先解码然后解析：

utf-8

如上所述，这效率较低，因为Python strings are not internally stored as UTF-8使得必须在libxml2使用它之前将其重新编码为UTF-8。

您还需要注意，如果XML包含类似response_string = response_bytes_io.read().decode('utf-8-sig') xml = etree.fromstring(response_string)的编码声明，则此方法将失败：

<?xml version="1.0" encoding="UTF-8"?>

如果您要处理来自第三方的XML，那可能会破坏交易。

我了解的更好的解决方法

我们也可以自己剥离UTF-8编码的BOM，因为它始终是三个字节ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration.。

可悲的是，在类似文件的对象上执行此操作比在字符串上要复杂得多，因为您无法提前阅读。将文件包装在\xef\xbb\xbf中可以得到io.BufferedReader函数，但是您无法控制它返回多少字节。

所以安全的方法是先将所有内容读入缓冲区：

peek()

这比直接在流上运行效率低，因为解析被延迟到读取完整个响应之后，但比进行额外的解码和重新编码过程要有效。

lxml LookupError发生。参数：（“未知编码：'b'utf-8-sig””，）

1 个答案:

一个很好的解决方案，即使我不明白为什么会起作用

背景信息

我了解的简单解决方法

我了解的更好的解决方法