simhash like算法比较两个文本文档

时间:2011-06-13 14:57:38

标签: string hash similarity simhash

问题是: 我有一组文本文档,我想要选择与输入文档最相似的文档。 输入文本文档可以部分匹配或修改。 算法必须非常快。

目前,我发现simhash从收集文件中取指纹。有没有其他算法可以做同样的事情?

2 个答案:

答案 0 :(得分:2)

LSH(Locality Sensitive Hashing)技术是一般的索引方法。他们非常有效地找到近似的近邻。

SimHash是LSH的一种散列算法。它使用余弦相似性而不是实值数据。

MinHash是LSH的另一种哈希算法。它计算二元向量的相似度。

Mining of Massive Dataset, Chapter 3 by Anand Rajaraman and Jeff Ullman.是对问题空间和MinHash的良好介绍。

答案 1 :(得分:1)

你尝试过LSH(局部敏感哈希)技术

吗?