主成分分析的术语 - 文档矩阵或文档 - 术语矩阵?

时间:2017-12-27 21:08:49

标签: r pca lda

我正在从事文本分析并拥有一个语料库,我希望在其中实现降维。

我知道主成分分析是执行此操作的标准方法。

在获得合理数量的维度后,我希望应用Latent Dirichelet Allocation来对文档进行分类。

在阅读文献时,我看到有些消息来源建议使用文档术语矩阵(dtm,文档作为行,术语作为列)用于PCA,而其他人建议使用术语 - 文档矩阵(tdm,术语作为行,文件为专栏)。

我有大约2400份文件和478,000个条款。

可以在tdm上进行PCA,然后获得K,我可以用它来进行LDA吗?

0 个答案:

没有答案