应用错误收集

时间：2009-11-26 23:37:55

标签： java html xpath

到目前为止，我一直在使用眼镜蛇，因为它有多容易，但遗憾的是它在一些测试案例中存在一些问题。有人建议一个久经考验的图书馆吗？

我已经尝试过Cobra内置的一个和HTMLCleaner没有任何运气。

答案 0 :(得分：4)

处理糟糕的HTML / XHTML时，

TagSoup非常棒。

Jericho（和NekoHTML）也可以解析无效的HTML。

TagSoup和Jericho：经过实践检验。 NekoHTML：来自可靠来源的反馈。

答案 1 :(得分：1)

看看Saxon（不，我没有参与产品，只是满意的用户）。

答案 2 :(得分：1)

Mozilla HTML Parser看起来很有趣。根据定义，它应该与Gecko引擎本身一样好，这可能会满足您的需求。

答案 3 :(得分：1)

[回答标题 - 整体问题和评论不包括在内]

JTidy（http://jtidy.sourceforge.net/）是Dave Raggett的HTMLTidy的一个端口。虽然我认为发展可能已经放缓/停止，但它非常有用。

答案 4 :(得分：1)

我建议Validator.nu's parser，基于HTML5解析算法。（Mozilla目前正在用这个替换自己的HTML解析器。）