如何解析Java中破碎的XML文件?

时间:2014-10-16 14:21:03

标签: java xml

我从外部源接收XML文件,而我无法控制。一些XML文件被破坏了。具体来说,在文件末尾,缺少一些结束标记。它是这样的:

<?xml version="1.0" encoding="UTF-8" ?>
<a>
  <b>
    <c/>
  </b>
  <b>
    <c/>
</a>

如果我们简单地忽略没有匹配结束标记的元素,我认为我们的系统会很好。

我可以用什么库来解析这些XML文件中的内容?

3 个答案:

答案 0 :(得分:1)

您需要自己手动解析它,没有XML解析器可以处理格式不正确的XML。一种可能性是使用SAX解析器,它将解析文档直到错误然后停止。

答案 1 :(得分:0)

XML解析器不应该支持这种行为。但是,如果您能够确定文件中的错误,您可以做出反应,清理它并再试一次。

答案 2 :(得分:0)

Idk如果JSoup可行。它应该是对HTML的宽容。关于XML的Idk。