我正在使用LDA的sklearn实现进行主题建模。 在模型拟合之后,我得到一些主题有意义的单词有增益权重,所以很好,但我也得到其他主题的所有单词'权重egals到先前(1 /主题数)。这种行为听起来很奇怪,这可能是什么原因?
有关我的设置的信息是:
我也想知道是否会出现太多主题,但如果情况确实如此,那么模型是否应该改变主题的权重呢?
答案 0 :(得分:0)
我有一个similar issue但在我的情况下,它与只有少量(大)文件有关。在这种情况下,在scikit-learn中实现的在线变分贝叶斯方法在查找信息主题方面存在问题(然而,基于吉布斯抽样的方法工作)。
我认为在你的情况下,问题是你传递了一个“ffidf矩阵”(我认为你的意思是 tfidf 矩阵)。据我所知,LDA仅适用于离散数字,因此您需要传递 tf 矩阵(术语频率也称为文字术语矩阵 - DTM )。