如何从余弦相似性进行文本聚类

时间:2016-06-20 19:30:27

标签: k-means pca cosine-similarity mds

我正在使用WEKA进行文本收集。假设我有n个带文本的文档,我计算TFID作为每个文档的特征向量,并计算每个文档之间的计算余弦相似度。生成nXn矩阵。现在我想知道如何在k-mean算法中使用这个nxn矩阵。我知道我可以应用一些降维,如MDS或PCA。我在这里感到困惑的是,在应用降维后我将如何识别该文档本身,例如,如果我有3个文档d1,d2 d3而不是余弦将给出d11,d12,d13之间的距离 D21,D22,D23 D31,D32,D33 现在我不确定在PCA或MDS之后将输出什么以及如何在kmean之后识别文档。请建议。我希望我能清楚地提出我的问题

1 个答案:

答案 0 :(得分:0)

PCA用于原始数据,而不是距离,即PCA(X)

MDS使用距离函数,即MDS(X, cosine)

您似乎认为需要运行PCA(cosine(X))?这不起作用。

您想要运行MDS(X, cosine)