Question

我正在使用Python的minidom来解析文档，例如：

<root>
  <foo>This tag contains a "<bar>" string</foo>
</root>

"<bar>"字符串会导致xml.parsers.expat.ExpatError: mismatched tag例外。

有没有办法在不破解输入文件的情况下解决这个问题？

Answer 1

通过“黑客输入文件”，您似乎意味着“使我的HTML符合”。开头“＆lt;” “＆lt; bar＆gt;”应该是HTML编码为“＆amp; lt;”。解析器怎么会知道它真的不是HTML标签呢？