如何从网站网址获取干净的xml表示

时间:2013-04-11 09:10:20

标签: java xml dom sax htmlcleaner

我正试图清楚地表达一个网站网址,所以 我可以将'html'放在

org.w3c.dom.Document

能够使用xpath等进行进一步处理。

当我尝试将html放在文档中时,我得到的是:

org.xml.sax.SAXParseException:Elementtyp“link”muss mit dem entsprechenden Endtag“”wasdet werden

这意味着,必须关闭“链接”,本网站的情况并非如此。

那么,可能是正确的方法吗? 我应该'修复'文件并替换错误吗?

我试过net.sourceforge.htmlcleaner,但它没弄明白,怎么样 '修复'错误。

任何帮助?

此致 霍尔格

2 个答案:

答案 0 :(得分:1)

你可以看看Neko:http://nekohtml.sourceforge.net/

对我来说效果非常好

答案 1 :(得分:0)

HTML通常不是xml,因此Document无法处理它。您需要一个特殊的库,例如JSoup