在官方解释中,LDA的主题之间没有自然的顺序。
对于方法show_topics(),如果它返回num_topics< = self.num_topics所有主题的子集因此是任意的,并且可能在两次LDA训练运行之间改变。
但我倾向于找到语料库的十大常见主题。还有其他方法可以达到这个目的吗?
非常感谢。
答案 0 :(得分:0)
与文档说的一样,LDA中的主题之间没有自然顺序。如果您有自己的主题排序标准,例如外观频率,您可以随时从模型中检索整个主题列表并自行排序。
然而,即使是"十大最常见主题的概念"是模棱两可的,人们可以合理地提出几种不同的频率定义。你的意思是分配给最大数量的单词代币的主题吗?您是指所有文件中平均比例最高的主题吗?这种含糊不清是gensim
没有内置方法对主题进行排序的原因。
答案 1 :(得分:0)
在gensim LDA文档中,列出了以下方法:
top_topics(语料库=无,文本=无,字典=无,window_size =无,连贯性='u_mass',topn = 20,进程= -1)
这可能会有所帮助。