Question

我正在研究神经网络，并且为了减少通过文档构建的术语 - 文档矩阵的维度以及带有tf-idf值的各种术语，我需要应用PCA。像这样的东西

           Term 1       Term 2       Term 3       Term 4. ..........
Document 1 

Document 2            tfidf values of terms per document

Document 3 
.
.
.
.
.

PCA的工作原理是获取数据的均值，然后减去均值，然后使用下面的协方差矩阵公式

令矩阵M为维数NxN

的术语 - 文档矩阵

协方差矩阵变为

( M x transpose(M))/N-1

然后，我们计算特征值和特征向量作为神经网络中的特征向量。我无法理解的是协方差矩阵的重要性以及找到协方差的维度。

因为如果我们考虑简单的2维X，Y，就可以理解了。这里有哪些维度？

谢谢

Answer 1

Latent semantic analysis 很好地描述了这种关系。它还解释了如何使用首先是完整的doc-term矩阵，然后是减少的矩阵，将术语列表（向量）映射到接近匹配的文档 - 即为什么要减少也可以看看 making-sense-of-PCA-eigenvectors-eigenvalues。（那里有许多不同的答案表明没有一个人对每个人都是直观的。）

通过PCA中的术语文档矩阵构造的协方差矩阵的意义是什么？

1 个答案: