我正在使用Python的minidom
来解析文档,例如:
<root>
<foo>This tag contains a "<bar>" string</foo>
</root>
"<bar>"
字符串会导致xml.parsers.expat.ExpatError: mismatched tag
例外。
有没有办法在不破解输入文件的情况下解决这个问题?
答案 0 :(得分:1)
通过“黑客输入文件”,您似乎意味着“使我的HTML符合”。开头“&lt;” “&lt; bar&gt;”应该是HTML编码为“&amp; lt;”。解析器怎么会知道它真的不是HTML标签呢?