问题是: 我有一组文本文档,我想要选择与输入文档最相似的文档。 输入文本文档可以部分匹配或修改。 算法必须非常快。
目前,我发现simhash从收集文件中取指纹。有没有其他算法可以做同样的事情?
答案 0 :(得分:2)
LSH(Locality Sensitive Hashing)技术是一般的索引方法。他们非常有效地找到近似的近邻。
SimHash是LSH的一种散列算法。它使用余弦相似性而不是实值数据。
MinHash是LSH的另一种哈希算法。它计算二元向量的相似度。
Mining of Massive Dataset, Chapter 3 by Anand Rajaraman and Jeff Ullman.是对问题空间和MinHash的良好介绍。
答案 1 :(得分:1)