Question

我如何计算两个文件之间的距离？在数字的k-means中，你必须计算两点之间的距离。我知道我可以使用cosinus功能。我想对rss文档执行群集。我已完成词干并从文档中删除了停用词。我已经计算了每个文档中单词的频率。现在我想实现k-mean算法。

Answer 1

有各种距离功能。一个是Euclidean Distance。

Answer 2

我假设您的难点在于创建特征向量？

为每个文档创建一个特征向量

例如，如果你有

Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat

然后整个词组是[快，棕，狐，跳，过，狗，牛，吃，河马，肉]和文件载体

Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]

现在你只有两个巨大的特征向量可以用来表示文档，你可以使用k-means聚类。正如其他人所说，欧几里德距离可以用来计算文件之间的距离。

Answer 3

您可以将欧氏距离公式用于n维系统。

sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ... )