语料库的总体主题分布,而不是单个文档

时间:2018-10-19 15:13:31

标签: nlp data-science gensim lda topic-modeling

我正在使用gensim LDA进行主题建模。 我需要获取语料库的主题分布,而不是单个文档。 假设我有1000个文档,它们属于10个不同的类别(每个类别说100个文档)。 在训练了LDA模型总共1000个文档之后,我想看看每个类别的主要主题。下图说明了我的数据集和目标。

enter image description here

到目前为止,我可以想到两种方法,但是我不确定哪一种方法都是理智的,我很高兴知道是否有更好的方法。

在第一种方法中,我可以将每个类别的文档合并为一个大文档。因此,只有10个大型文档,因此对于每个文档,我将能够检索其主题分布。

另一种方法可能是获取所有文档的主题分布,而无需连接文档。因此,对于每个类别,我们将有100个文档主题分布。为了获得每个类别的主要主题,我可以对每个主题的概率求和,并且只获得得分最高的几个主题。 我不确定这些方法是否正确,您会提出什么建议?

1 个答案:

答案 0 :(得分:1)

在方法1)中,您正在串联文档(可能具有不同的长度),并获得一个大文档的主题。因此,较小文档的重要性可能会降低。

在方法2中,所有长度的文档都具有几乎同等的重要性(取决于您如何组合主题分布)

您需要使用的方法取决于您的用例。