用MALLET训练的LDA模型的奇怪困惑值

时间:2017-04-23 23:33:01

标签: java statistics lda topic-modeling mallet

我已经在Stack Overflow数据转储的一部分上训练了一个带有MALLET的LDA模型,并为训练和测试数据进行了70/30分割。

但是困惑值很奇怪,因为它们对于测试集而言比训练集更低。这怎么可能?我认为该模型更适合训练数据?

我已经仔细检查了我的困惑计算,但我没有发现错误。你知道原因是什么吗?

提前谢谢!

enter image description here

修改

我没有使用控制台输出作为训练集的LL /令牌值,而是再次使用训练集上的评估器。现在这些价值似乎是合理的。

enter image description here

1 个答案:

答案 0 :(得分:3)

这是有道理的。 LL /令牌编号为您提供了主题分配观察到的单词的概率,而保持概率为您提供了观察到的单词的边际概率,总结了主题。