我正试图清楚地表达一个网站网址,所以 我可以将'html'放在
中org.w3c.dom.Document
能够使用xpath等进行进一步处理。
当我尝试将html放在文档中时,我得到的是:
org.xml.sax.SAXParseException:Elementtyp“link”muss mit dem entsprechenden Endtag“”wasdet werden
这意味着,必须关闭“链接”,本网站的情况并非如此。
那么,可能是正确的方法吗? 我应该'修复'文件并替换错误吗?
我试过net.sourceforge.htmlcleaner,但它没弄明白,怎么样 '修复'错误。
任何帮助?
此致 霍尔格
答案 0 :(得分:1)
你可以看看Neko:http://nekohtml.sourceforge.net/
对我来说效果非常好
答案 1 :(得分:0)
HTML通常不是xml,因此Document无法处理它。您需要一个特殊的库,例如JSoup