我正在从事文本分析并拥有一个语料库,我希望在其中实现降维。
我知道主成分分析是执行此操作的标准方法。
在获得合理数量的维度后,我希望应用Latent Dirichelet Allocation来对文档进行分类。
在阅读文献时,我看到有些消息来源建议使用文档术语矩阵(dtm,文档作为行,术语作为列)用于PCA,而其他人建议使用术语 - 文档矩阵(tdm,术语作为行,文件为专栏)。
我有大约2400份文件和478,000个条款。
可以在tdm上进行PCA,然后获得K,我可以用它来进行LDA吗?