到目前为止,我一直在使用眼镜蛇,因为它有多容易,但遗憾的是它在一些测试案例中存在一些问题。有人建议一个久经考验的图书馆吗?
我已经尝试过Cobra内置的一个和HTMLCleaner没有任何运气。
答案 0 :(得分:4)
TagSoup非常棒。
Jericho(和NekoHTML)也可以解析无效的HTML。
TagSoup和Jericho:经过实践检验。 NekoHTML:来自可靠来源的反馈。
答案 1 :(得分:1)
看看Saxon(不,我没有参与产品,只是满意的用户)。
答案 2 :(得分:1)
Mozilla HTML Parser看起来很有趣。根据定义,它应该与Gecko引擎本身一样好,这可能会满足您的需求。
答案 3 :(得分:1)
[回答标题 - 整体问题和评论不包括在内]
JTidy(http://jtidy.sourceforge.net/)是Dave Raggett的HTMLTidy的一个端口。虽然我认为发展可能已经放缓/停止,但它非常有用。
答案 4 :(得分:1)
我建议Validator.nu's parser,基于HTML5解析算法。 (Mozilla目前正在用这个替换自己的HTML解析器。)