Question

我正在尝试从网站解析一些值。为此，我使用QXmlStreamReader。在我开始解析后，我收到XML错误：“预期'='，但得到'＆gt;'。”。它打破了这个格格不入的元素：

<tbody pageStartAt >

我认为这样做的原因是因为标准认为标签主名后的所有内容都应该附加一些值，如下所示：

<tbody pageStartAt="2" > - this is working.

我的问题是 - 有什么方法可以阻止这种情况吗？我只想忽略没有值的子标签。我宁愿避免使用QWebKit - 我认为这太过分了。

Answer 1

我找到的最简单的方法是使用HTMLTidy（感谢对@MrEricSir的建议）它修复了破碎的XML。一个降级事实是它添加了不必要的标签，如/ body / etc。