主题模型作为文本挖掘的降维方法 - 下一步该怎么做?

时间:2015-09-27 02:20:06

标签: machine-learning nlp text-mining lda topic-modeling

我对工作流程的理解是运行LDA - >提取键(例如每个主题的前几个单词),从而减少维度 - >一些后续分析。

我的问题是,如果我的总体目的是以无人监督的方式为文章提供主题,或者将类似的文档聚集在一起,那么LDA的运行将直接带您进入目标。为什么要缩小尺寸然后将其传递给后续分析?如果你这样做,你可以在LDA之后做什么样的后续分析?

另外,有点无关的问题 - 最好在这里提出这个问题还是交叉验证?

2 个答案:

答案 0 :(得分:0)

我认为交叉验证是这类问题的更好地方。无论如何,有关于为什么我们需要降维的简单解释:

  1. 没有降维,矢量运算是不可计算的。想象一下两个向量之间的点积,其大小与字典大小相同!真的?
  2. 每个数字在减小尺寸后携带更多密集的信息。这通常会减少噪音。直觉上,您只保留了有用的信息。

答案 1 :(得分:0)

您应该重新考虑您的方法,因为您将概率方法(LDA)与线性代数(降维)混合在一起。当您对线性代数感到更舒服时,请考虑非负矩阵分解。

另请注意,您的主题已经构成缩小的维度,无需跳回到主题中提取的顶部单词。