标签: java html dom similarity
是否有一个库(用于java)比较网页之间的相似性(HTML,dom相似度)?
在我的应用程序中,我想对网站的链接进行分类。 例如: group 1: Product detail page group 2: Category page(适用于在线购物网站等)。
group 1: Product detail page group 2: Category page
对于这样的分类html结构(dom)相似性是我认为最好的方式。请帮忙解决这个问题。
答案 0 :(得分:1)
不完全符合您的要求,但如果HTMl的XML有效,您可以使用XMLUnit,very simple来比较它的相似性。