我如何计算两个文件之间的距离?在数字的k-means中,你必须计算两点之间的距离。我知道我可以使用cosinus功能。 我想对rss文档执行群集。我已完成词干并从文档中删除了停用词。我已经计算了每个文档中单词的频率。现在我想实现k-mean算法。
答案 0 :(得分:1)
有各种距离功能。一个是Euclidean Distance。
答案 1 :(得分:1)
我假设您的难点在于创建特征向量?
为每个文档创建一个特征向量例如,如果你有
Document 1 = the quick brown fox jumped over the brown dog
Document 2 = the brown cows eat hippo meat
然后整个词组是[快,棕,狐,跳,过,狗,牛,吃,河马,肉]和文件载体
Document 1 = [1,1,2,1,1,1,1,1,0,0,0,0]
Document 2 = [1,0,1,0,0,0,0,0,1,1,1,1]
现在你只有两个巨大的特征向量可以用来表示文档,你可以使用k-means聚类。正如其他人所说,欧几里德距离可以用来计算文件之间的距离。
答案 2 :(得分:0)
您可以将欧氏距离公式用于n维系统。
sqrt((x1-x2)^2 + (y1-y2)^2 + (z1 - z2)^2 ... )