我正在使用gensim
对类别为stats.ML的arXiv抽象语料库进行LDA
我的问题是主题之间有很多重叠(无论我选择5个,10个还是50个主题)。每个主题都有诸如“模型”,“算法”或“问题”之类的单词分布。如果这么多主题突出显示相同的术语,如何将它们视为可区分的?
但是当我拒绝lambda = 0.08
时,该主题的实际性质就出现了(医疗应用中的ML):
所以我的问题是,在训练我的LDA模型(没有pyLDAvis)的过程中,如何发现这些独特的术语?而且,如果我能够忽略这些常见的,非歧视性的术语,该模型的性能(相对于可解释性)是否会得到改善?
我有几种想法可以尝试,但需要更多指导:
eta
中调整gensim.models.LdaModel
参数我的目标是最终获取一个新文档,并根据与哪个主题相关的单词对单词进行着色,并提供与输入文档最相似的文档。
我对gensim
很陌生,这是我的第一个SO问题,因此,如果我在某些方面完全落伍,请告诉我;-)。谢谢