衡量HTML等价?

时间:2010-01-27 17:39:35

标签: java html libraries

我想知道是否有人知道Java用于衡量HTML等价的好库?

例如<td class="one two three" name="goat">相当于<td name="goat" class="three two one">。我想用Java以这种方式比较整个多行的html字符串。

有什么建议吗?

更新:

所以我尝试使用XmlUnit的Diff.similar(),发现我发现这两个是相似的:

<html three="3" two="2" one="1"></html><html one="one" two="two"></html>

这是不受欢迎的行为......还有其他选择吗?

1 个答案:

答案 0 :(得分:2)

您可以使用NekoHTMLJTidy之类的html解析器,然后使用Diff XMLUnit类来比较两个XML文档。