一个软件给我带来了不好的xml:
<sometag> some textnode with < and > characters in the middle of it</sometag>
So you can potentially have <notatag> but <isatag>some text</isatag>
因此,当我尝试将其放入minidom的xml解析器中时,可以理解的是它并不开心。
我的目标是翻译&lt; &GT;将字符转换为适当的转义序列:
<sometag> some textnode with < and > characters in the middle of it</sometag>
So you can potentially have <notatag> but <isatag>some text</isatag>
我看到了lxml的解析器恢复选项(http://lxml.de/parsing.html),但它尝试完成并关闭看起来像标记的内容,或者删除wild&lt; &GT;字符。我希望保持文本完全相同,所有不能将有效标记转换为转义字符的文本。
感谢您的时间和您的帮助。