我正在使用WEKA进行文本收集。假设我有n个带文本的文档,我计算TFID作为每个文档的特征向量,并计算每个文档之间的计算余弦相似度。生成nXn矩阵。现在我想知道如何在k-mean算法中使用这个nxn矩阵。我知道我可以应用一些降维,如MDS或PCA。我在这里感到困惑的是,在应用降维后我将如何识别该文档本身,例如,如果我有3个文档d1,d2 d3而不是余弦将给出d11,d12,d13之间的距离 D21,D22,D23 D31,D32,D33 现在我不确定在PCA或MDS之后将输出什么以及如何在kmean之后识别文档。请建议。我希望我能清楚地提出我的问题
答案 0 :(得分:0)
PCA用于原始数据,而不是距离,即PCA(X)
。
MDS使用距离函数,即MDS(X, cosine)
。
您似乎认为需要运行PCA(cosine(X))
?这不起作用。
您想要运行MDS(X, cosine)
。