任何好的Java HTML解析器?

时间:2009-11-26 23:37:55

标签: java html xpath

到目前为止,我一直在使用眼镜蛇,因为它有多容易,但遗憾的是它在一些测试案例中存在一些问题。有人建议一个久经考验的图书馆吗?

我已经尝试过Cobra内置的一个和HTMLCleaner没有任何运气。

5 个答案:

答案 0 :(得分:4)

处理糟糕的HTML / XHTML时,

TagSoup非常棒。

Jericho(和NekoHTML)也可以解析无效的HTML。

TagSoup和Jericho:经过实践检验。 NekoHTML:来自可靠来源的反馈。

答案 1 :(得分:1)

看看Saxon(不,我没有参与产品,只是满意的用户)。

答案 2 :(得分:1)

Mozilla HTML Parser看起来很有趣。根据定义,它应该与Gecko引擎本身一样好,这可能会满足您的需求。

答案 3 :(得分:1)

[回答标题 - 整体问题和评论不包括在内]

JTidy(http://jtidy.sourceforge.net/)是Dave Raggett的HTMLTidy的一个端口。虽然我认为发展可能已经放缓/停止,但它非常有用。

答案 4 :(得分:1)

我建议Validator.nu's parser,基于HTML5解析算法。 (Mozilla目前正在用这个替换自己的HTML解析器。)