LDA生成的主题

时间:2015-06-04 21:30:43

标签: python machine-learning lda topic-modeling gensim

所以我在gensim和LDA工作相对较新,大约两周前开始,我很难相信这些结果。以下是使用11个1段文档制作的主题。

主题#0(0.500):0.059 *岛+ 0.059 *世界+0.057 *电脑+ 0.056 *总统+ 0.053 *发布+ 0.047 *发布+ 0.046 * tijuana + 0.045 *副+ 0.045 *推文+ 0.045 *总裁< / p>

2015-06-04 16:22:07,891:INFO:主题#1(0.500):0.093 *计算机+ 0.064 *世界+0.060 *帖子+ 0.053 *欧元区+ 0.052 *月+ 0.049 * tijuana + 0.048 *岛+ 0.046 *加注+ 0.044 *费率+ 0.042 *年

这些话题似乎并不合适。事实上,他们似乎几乎没有感性。我究竟应该如何阅读这些结果?此外,两个主题的主题分布完全相同是正常的吗?

1 个答案:

答案 0 :(得分:0)

那么,你只有11个文件,并试图从中获取2个主题?也许可能是没有足够数据但尝试迭代更多的情况。

BTW,是每次迭代后的负对数似然或下降的困惑吗?

只是查看结果,我认为如果你迭代更多,你将得到正确的结果,因为算法已经在一个主题中正确地将语义上紧密的东西放在一起。 (帖子,帖子,推文;月,年)