如何将LDA主题限制为不同的术语?

时间:2018-10-16 03:14:55

标签: python gensim lda topic-modeling

我正在使用gensim对类别为stats.ML的arXiv抽象语料库进行LDA

我的问题是主题之间有很多重叠(无论我选择5个,10个还是50个主题)。每个主题都有诸如“模型”,“算法”或“问题”之类的单词分布。如果这么多主题突出显示相同的术语,如何将它们视为可区分的?

使用pyLDAvis对我很有帮助。这是主题3的分发: topics with lambda equal one

但是当我拒绝lambda = 0.08时,该主题的实际性质就出现了(医疗应用中的ML): topics with low lambda

所以我的问题是,在训练我的LDA模型(没有pyLDAvis)的过程中,如何发现这些独特的术语?而且,如果我能够忽略这些常见的,非歧视性的术语,该模型的性能(相对于可解释性)是否会得到改善?

我有几种想法可以尝试,但需要更多指导:

  • 从我的词典中过滤出50个最常用的术语。虽然我认为这有所帮助,但我不确定这是否正确
  • eta中调整gensim.models.LdaModel参数

我的目标是最终获取一个新文档,并根据与哪个主题相关的单词对单词进行着色,并提供与输入文档最相似的文档。

我对gensim很陌生,这是我的第一个SO问题,因此,如果我在某些方面完全落伍,请告诉我;-)。谢谢

0 个答案:

没有答案