我想将中等大小(10-20个字符)的字符串汇总到组中。 这意味着,如果两个字符串非常相似,例如"足球"和" socer",两者的哈希应该是相似的。类似于整数,或通过相似性度量返回0或1,非常相似"。
是否有与聚类方法相关的基准或评估?
现在我知道
或者这个问题已经解决了很长时间,并且只有#34;标准"?
非常感谢你!
答案 0 :(得分:0)
最先进的技术可能是MinHash,LSH,WTA哈希等。
您要找的是不是群集,而是接近重复检测。
据报道,谷歌新闻使用这种方法来检测近似重复的新闻项目(并且有很多)。在这里,你应该对角色和n-gram尝试相同的方法。