应用错误收集

如何从余弦相似性进行文本聚类

时间：2016-06-20 19:30:27

标签： k-means pca cosine-similarity mds

我正在使用WEKA进行文本收集。假设我有n个带文本的文档，我计算TFID作为每个文档的特征向量，并计算每个文档之间的计算余弦相似度。生成nXn矩阵。现在我想知道如何在k-mean算法中使用这个nxn矩阵。我知道我可以应用一些降维，如MDS或PCA。我在这里感到困惑的是，在应用降维后我将如何识别该文档本身，例如，如果我有3个文档d1，d2 d3而不是余弦将给出d11，d12，d13之间的距离 D21，D22，D23 D31，D32，D33 现在我不确定在PCA或MDS之后将输出什么以及如何在kmean之后识别文档。请建议。我希望我能清楚地提出我的问题

1 个答案:

答案 0 :(得分：0)

PCA用于原始数据，而不是距离，即PCA(X)。

MDS使用距离函数，即MDS(X, cosine)。

您似乎认为需要运行PCA(cosine(X))？这不起作用。

您想要运行MDS(X, cosine)。