余弦相似度如何与K-means算法一起使用?

时间:2017-02-07 17:09:55

标签: algorithm cluster-analysis k-means cosine-similarity cosine

对于在VSM中的向量中具有不同长度的三个文本文档向量,其中条目是术语的tf-idf:

Q1: k-means使用的余弦相似性如何构建聚类。

当我使用TF-IDF算法时,

Q2:。它的产生负值是否在我的计算中有任何问题?

请使用以下docs向量是VSM(tf.idf),其中所有具有不同的向量长度用于解释目的。

Doc1 (0.134636045, -0.000281926, -0.000281926, -0.000281926, -0.000281926, 0)
Doc2 (-0.002354898, 0.012411358, 0.012411358, 0.09621575, 0.3815553)
Doc3(-0.001838258, 0.009688438, 0.019376876, 0.05633028, 0.59569238, 0.103366223, 0) 

我将感谢任何人可以解释我的问题。

1 个答案:

答案 0 :(得分:0)

余弦相似性意味着你取矢量/ k均值中心的点积而不是欧几里德距离。

对于所有尺寸,点积都是a.x b.x + a.y b.y ... + a.zz * b.zz。您通常首先将矢量标准化。然后在结果上调用acos()。

基本上,您将结果划分为扇区而不是随机聚集的群集。