通过PCA中的术语文档矩阵构造的协方差矩阵的意义是什么?

时间:2012-11-09 11:49:42

标签: statistics neural-network pca eigenvector term-document-matrix

我正在研究神经网络,并且为了减少通过文档构建的术语 - 文档矩阵的维度以及带有tf-idf值的各种术语,我需要应用PCA。 像这样的东西

           Term 1       Term 2       Term 3       Term 4. ..........
Document 1 

Document 2            tfidf values of terms per document

Document 3 
.
.
.
.
.

PCA的工作原理是获取数据的均值,然后减去均值,然后使用下面的协方差矩阵公式

令矩阵M为维数NxN

的术语 - 文档矩阵

协方差矩阵变为

( M x transpose(M))/N-1 
然后,我们计算特征值和特征向量作为神经网络中的特征向量。我无法理解的是协方差矩阵的重要性以及找到协方差的维度。

因为如果我们考虑简单的2维X,Y,就可以理解了。这里有哪些维度?

谢谢

1 个答案:

答案 0 :(得分:0)

Latent semantic analysis 很好地描述了这种关系。 它还解释了如何使用 首先是完整的doc-term矩阵,然后是减少的矩阵, 将术语列表(向量)映射到接近匹配的文档 - 即为什么要减少 也可以看看 making-sense-of-PCA-eigenvectors-eigenvalues。 (那里有许多不同的答案表明没有一个人对每个人都是直观的。)