python - LDA生成的主题

LDA生成的主题

时间：2015-06-04 21:30:43

标签： python machine-learning lda topic-modeling gensim

所以我在gensim和LDA工作相对较新，大约两周前开始，我很难相信这些结果。以下是使用11个1段文档制作的主题。

主题＃0（0.500）：0.059 *岛+ 0.059 *世界+0.057 *电脑+ 0.056 *总统+ 0.053 *发布+ 0.047 *发布+ 0.046 * tijuana + 0.045 *副+ 0.045 *推文+ 0.045 *总裁< / p>

2015-06-04 16：22：07,891：INFO：主题＃1（0.500）：0.093 *计算机+ 0.064 *世界+0.060 *帖子+ 0.053 *欧元区+ 0.052 *月+ 0.049 * tijuana + 0.048 *岛+ 0.046 *加注+ 0.044 *费率+ 0.042 *年

这些话题似乎并不合适。事实上，他们似乎几乎没有感性。我究竟应该如何阅读这些结果？此外，两个主题的主题分布完全相同是正常的吗？

1 个答案:

答案 0 :(得分：0)

那么，你只有11个文件，并试图从中获取2个主题？也许可能是没有足够数据但尝试迭代更多的情况。

BTW，是每次迭代后的负对数似然或下降的困惑吗？

只是查看结果，我认为如果你迭代更多，你将得到正确的结果，因为算法已经在一个主题中正确地将语义上紧密的东西放在一起。（帖子，帖子，推文;月，年）