使用K-means算法对文档进行聚类

时间:2011-05-31 15:58:10

标签: distance documents k-means

我如何计算两个文件之间的距离?在数字的k-means中,你必须计算两点之间的距离。我知道我可以使用cosinus功能。 我想对rss文档执行群集。我已完成词干并从文档中删除了停用词。我已经计算了每个文档中单词的频率。现在我想实现k-mean算法。

3 个答案:

答案 0 :(得分:1)

有各种距离功能。一个是Euclidean Distance

答案 1 :(得分:1)

我假设您的难点在于创建特征向量?

为每个文档创建一个特征向量
  1. 收集所有单词以形成一个巨大的载体
  2. 将该向量的元素设置为术语数。
  3. 例如,如果你有

    Document 1 = the quick brown fox jumped over the brown dog
    Document 2 = the brown cows eat hippo meat
    

    然后整个词组是[快,棕,狐,跳,过,狗,牛,吃,河马,肉]和文件载体

    Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
    Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
    

    现在你只有两个巨大的特征向量可以用来表示文档,你可以使用k-means聚类。正如其他人所说,欧几里德距离可以用来计算文件之间的距离。

答案 2 :(得分:0)

您可以将欧氏距离公式用于n维系统。

sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ... )