我从外部源接收XML文件,而我无法控制。一些XML文件被破坏了。具体来说,在文件末尾,缺少一些结束标记。它是这样的:
<?xml version="1.0" encoding="UTF-8" ?>
<a>
<b>
<c/>
</b>
<b>
<c/>
</a>
如果我们简单地忽略没有匹配结束标记的元素,我认为我们的系统会很好。
我可以用什么库来解析这些XML文件中的内容?
答案 0 :(得分:1)
您需要自己手动解析它,没有XML解析器可以处理格式不正确的XML。一种可能性是使用SAX解析器,它将解析文档直到错误然后停止。
答案 1 :(得分:0)
XML解析器不应该支持这种行为。但是,如果您能够确定文件中的错误,您可以做出反应,清理它并再试一次。
答案 2 :(得分:0)
Idk如果JSoup可行。它应该是对HTML的宽容。关于XML的Idk。