应用错误收集

时间：2015-09-27 02:20:06

标签： machine-learning nlp text-mining lda topic-modeling

我对工作流程的理解是运行LDA - ＆gt;提取键（例如每个主题的前几个单词），从而减少维度 - ＆gt;一些后续分析。

我的问题是，如果我的总体目的是以无人监督的方式为文章提供主题，或者将类似的文档聚集在一起，那么LDA的运行将直接带您进入目标。为什么要缩小尺寸然后将其传递给后续分析？如果你这样做，你可以在LDA之后做什么样的后续分析？

另外，有点无关的问题 - 最好在这里提出这个问题还是交叉验证？

答案 0 :(得分：0)

我认为交叉验证是这类问题的更好地方。无论如何，有关于为什么我们需要降维的简单解释：

答案 1 :(得分：0)

您应该重新考虑您的方法，因为您将概率方法（LDA）与线性代数（降维）混合在一起。当您对线性代数感到更舒服时，请考虑非负矩阵分解。

另请注意，您的主题已经构成缩小的维度，无需跳回到主题中提取的顶部单词。