如何从minhash LSH获得相似度矩阵?

时间:2018-01-04 14:01:33

标签: cluster-analysis locality-sensitive-hash minhash

我已阅读了许多教程并尝试了一些minhash LSH,但它无法生成相似度矩阵,而是返回超出阈值的类似数据。我该如何生成它?我的目的是使用LSH结果进行聚类。

1 个答案:

答案 0 :(得分:0)

LSH的重点是避免成对距离,因为它不会缩放。

如果您随后将数据放入距离矩阵,则会再次遇到所有可伸缩性问题!

相反,请考虑像DBSCAN群集这样的算法。它不需要距离矩阵,只需要距离epsilon的邻居。