Scikitlearn潜在的dirichlet分配给出了空话题

时间:2016-03-18 14:39:44

标签: scikit-learn

我正在使用LDA的sklearn实现进行主题建模。 在模型拟合之后,我得到一些主题有意义的单词有增益权重,所以很好,但我也得到其他主题的所有单词'权重egals到先前(1 /主题数)。这种行为听起来很奇怪,这可能是什么原因?

有关我的设置的信息是:

  • 1000字的词汇
  • 我正在向模型传递一个ffidf矩阵,使用这个词汇表完成700多个文档,每个文档介于500到1000个字符之间
  • 我试图运行不同数量的em迭代,但不会改变结果
  • 我要30个主题

我也想知道是否会出现太多主题,但如果情况确实如此,那么模型是否应该改变主题的权重呢?

1 个答案:

答案 0 :(得分:0)

我有一个similar issue但在我的情况下,它与只有少量(大)文件有关。在这种情况下,在scikit-learn中实现的在线变分贝叶斯方法在查找信息主题方面存在问题(然而,基于吉布斯抽样的方法工作)。

我认为在你的情况下,问题是你传递了一个“ffidf矩阵”(我认为你的意思是 tfidf 矩阵)。据我所知,LDA仅适用于离散数字,因此您需要传递 tf 矩阵(术语频率也称为文字术语矩阵 - DTM )。