我对工作流程的理解是运行LDA - >提取键(例如每个主题的前几个单词),从而减少维度 - >一些后续分析。
我的问题是,如果我的总体目的是以无人监督的方式为文章提供主题,或者将类似的文档聚集在一起,那么LDA的运行将直接带您进入目标。为什么要缩小尺寸然后将其传递给后续分析?如果你这样做,你可以在LDA之后做什么样的后续分析?
另外,有点无关的问题 - 最好在这里提出这个问题还是交叉验证?
答案 0 :(得分:0)
我认为交叉验证是这类问题的更好地方。无论如何,有关于为什么我们需要降维的简单解释:
答案 1 :(得分:0)
您应该重新考虑您的方法,因为您将概率方法(LDA)与线性代数(降维)混合在一起。当您对线性代数感到更舒服时,请考虑非负矩阵分解。
另请注意,您的主题已经构成缩小的维度,无需跳回到主题中提取的顶部单词。