我的XML包含异常(但已转义)字符:
""
我如何解析这个,以便""
属性的值是文字字符串lxml.etree.fromstring
和"—" -> "a"
(而不是实际的退格/转义控制字符)?
etree.XMLParser
这样的Python解析器似乎总能解码这些 - 这对于像resolve_entities=False
这样的常见字符来说很好。将&
与&#x...;
一起使用会保留{{1}}之类的内容,而不是我需要的内容{{1}}。
我打算解析一个包含如上所示的行的文件,用python操作树,最后将它保存到另一个看起来像第一个的文件。
谢谢!