我读到了关于球形kmeans但我没有遇到过实现。要明确,相似性很简单,两个文档单位向量的点积。我读过标准k表示使用距离作为度量。是否将距离指定为矢量距离,就像在坐标几何中使用sqrt((x2 -x1)^ 2 +(y2-y1)^ 2)?
答案 0 :(得分:1)
比k-means有更多的聚类方法。 k-means的问题并不是建立在欧几里德距离上,而是均值必须减少算法收敛的距离。
然而,吨的其他聚类算法不需要计算均值或具有三角不等式。如果您阅读有关DBSCAN的维基百科文章,它还会提到一个名为GDBSCAN,Generalized DBSCAN的版本。你绝对应该能够将相似性函数插入到GDBSCAN中。最有可能的是,您可以使用1 /相似度并将其用作距离函数,除非算法需要三角不等式。因此,这个技巧应该适用于DBSCAN和OPTICS。可能还有层次聚类,k-medians和k-medoids(PAM)。