scikit-learn - Scikitlearn潜在的dirichlet分配给出了空话题

时间：2016-03-18 14:39:44

标签： scikit-learn

我正在使用LDA的sklearn实现进行主题建模。在模型拟合之后，我得到一些主题有意义的单词有增益权重，所以很好，但我也得到其他主题的所有单词'权重egals到先前（1 /主题数）。这种行为听起来很奇怪，这可能是什么原因？

有关我的设置的信息是：

我也想知道是否会出现太多主题，但如果情况确实如此，那么模型是否应该改变主题的权重呢？

答案 0 :(得分：0)

我有一个similar issue但在我的情况下，它与只有少量（大）文件有关。在这种情况下，在scikit-learn中实现的在线变分贝叶斯方法在查找信息主题方面存在问题（然而，基于吉布斯抽样的方法工作）。

我认为在你的情况下，问题是你传递了一个“ffidf矩阵”（我认为你的意思是 tfidf 矩阵）。据我所知，LDA仅适用于离散数字，因此您需要传递 tf 矩阵（术语频率也称为文字术语矩阵 - DTM ）。