标签: cluster-analysis locality-sensitive-hash minhash
我已阅读了许多教程并尝试了一些minhash LSH,但它无法生成相似度矩阵,而是返回超出阈值的类似数据。我该如何生成它?我的目的是使用LSH结果进行聚类。
答案 0 :(得分:0)
LSH的重点是避免成对距离,因为它不会缩放。
如果您随后将数据放入距离矩阵,则会再次遇到所有可伸缩性问题!
相反,请考虑像DBSCAN群集这样的算法。它不需要距离矩阵,只需要距离epsilon的邻居。