通过相似性散列/测量的字符串聚类

时间:2015-04-14 08:51:10

标签: hash cluster-analysis hierarchical-clustering

我想将中等大小(10-20个字符)的字符串汇总到组中。 这意味着,如果两个字符串非常相似,例如"足球"和" socer",两者的哈希应该是相似的。类似于整数,或通过相似性度量返回0或1,非常相似"。

是否有与聚类方法相关的基准或评估?

现在我知道

或者这个问题已经解决了很长时间,并且只有#34;标准"?

非常感谢你!

1 个答案:

答案 0 :(得分:0)

最先进的技术可能是MinHash,LSH,WTA哈希等。

您要找的是不是群集,而是接近重复检测

据报道,谷歌新闻使用这种方法来检测近似重复的新闻项目(并且有很多)。在这里,你应该对角色和n-gram尝试相同的方法。