如何使用Gensim打印十大主题?

时间:2016-07-18 16:53:23

标签: python lda gensim topic-modeling

在官方解释中,LDA的主题之间没有自然的顺序。

对于方法show_topics(),如果它返回num_topics< = self.num_topics所有主题的子集因此是任意的,并且可能在两次LDA训练运行之间改变。

但我倾向于找到语料库的十大常见主题。还有其他方法可以达到这个目的吗?

非常感谢。

2 个答案:

答案 0 :(得分:0)

与文档说的一样,LDA中的主题之间没有自然顺序。如果您有自己的主题排序标准,例如外观频率,您可以随时从模型中检索整个主题列表并自行排序。

然而,即使是"十大最常见主题的概念"是模棱两可的,人们可以合理地提出几种不同的频率定义。你的意思是分配给最大数量的单词代币的主题吗?您是指所有文件中平均比例最高的主题吗?这种含糊不清是gensim没有内置方法对主题进行排序的原因。

答案 1 :(得分:0)

gensim LDA文档中,列出了以下方法:

top_topics(语料库=无,文本=无,字典=无,window_size =无,连贯性='u_mass',topn = 20,进程= -1)

这可能会有所帮助。