应用错误收集

有几点：

PCA很简单。但是，在使用之前，您确实需要了解它。遗憾的是，它不像黑盒工具，就像聚类算法一样。
在协方差矩阵（即X'* X，其中X的每一行是文本文档）上执行PCA。您可以看到无法在内存中存储# of words by # of words matrix。因此对于文本数据，您不能直接使用PCA。您需要使用SVD，此技术称为latent semantic analysis。当数据居中时，PCA和SVD是相同的。实际上，数据居中不适用于文本数据，因为居中导致稀疏到密集。
PCA和SVD都很简单，有几行Matlab代码。如果你有一个用于特征分解或SVD的线性代数库，那么只有几行C＃代码。我注意到的困难部分是你需要了解它们。
分析文本文档的一种比较流行的方法是probabilistic latent semantic analysis。在不使用任何矩阵分解的情况下，这很容易理解且易于编码。当然，你还需要学习一些数学知识。