Question

我正试图清楚地表达一个网站网址，所以我可以将'html'放在

中

org.w3c.dom.Document

能够使用xpath等进行进一步处理。

当我尝试将html放在文档中时，我得到的是：

org.xml.sax.SAXParseException：Elementtyp“link”muss mit dem entsprechenden Endtag“”wasdet werden

这意味着，必须关闭“链接”，本网站的情况并非如此。

那么，可能是正确的方法吗？我应该'修复'文件并替换错误吗？

我试过net.sourceforge.htmlcleaner，但它没弄明白，怎么样 '修复'错误。

任何帮助？

此致霍尔格

Answer 1

对我来说效果非常好

Answer 2

HTML通常不是xml，因此Document无法处理它。您需要一个特殊的库，例如JSoup