我使用PDFminer,但它包含一个错误,我收到以下无效的XML文件:
<?xml version="1.1" encoding="UTF-8"?>
<string size="16">ô‚ÌfƇ*š]Ö[</string>
当我尝试使用ElementTree
解析它时,我收到以下错误:
bookXml = xml.etree.ElementTree.parse(filename)
File "C:\Users\User\Anaconda3\lib\xml\etree\ElementTree.py", line 1196, in parse
tree.parse(source, parser)
File "C:\Users\User\Anaconda3\lib\xml\etree\ElementTree.py", line 597, in parse
self._root = parser._parse_whole(source)
xml.etree.ElementTree.ParseError: reference to invalid character number: line 1, column 36
我认为处理这种情况的最佳方法是首先修复XML,但是如何修复?
答案 0 :(得分:1)
我会在CDATA中包装有问题的XML字符串。我这样做后确认工作。例如:
<?xml version="1.1" encoding="UTF-8"?>
<string><![CDATA[ô‚ÌƇ*šÖ]]></string>
有关CDATA here的更多信息。