我正在研究神经网络,并且为了减少通过文档构建的术语 - 文档矩阵的维度以及带有tf-idf值的各种术语,我需要应用PCA。 像这样的东西
Term 1 Term 2 Term 3 Term 4. ..........
Document 1
Document 2 tfidf values of terms per document
Document 3
.
.
.
.
.
PCA的工作原理是获取数据的均值,然后减去均值,然后使用下面的协方差矩阵公式
令矩阵M为维数NxN
的术语 - 文档矩阵协方差矩阵变为
( M x transpose(M))/N-1
然后,我们计算特征值和特征向量作为神经网络中的特征向量。我无法理解的是协方差矩阵的重要性以及找到协方差的维度。
因为如果我们考虑简单的2维X,Y,就可以理解了。这里有哪些维度?
谢谢
答案 0 :(得分:0)
Latent semantic analysis 很好地描述了这种关系。 它还解释了如何使用 首先是完整的doc-term矩阵,然后是减少的矩阵, 将术语列表(向量)映射到接近匹配的文档 - 即为什么要减少 也可以看看 making-sense-of-PCA-eigenvectors-eigenvalues。 (那里有许多不同的答案表明没有一个人对每个人都是直观的。)