应用错误收集

用MALLET训练的LDA模型的奇怪困惑值

时间：2017-04-23 23:33:01

标签： java statistics lda topic-modeling mallet

我已经在Stack Overflow数据转储的一部分上训练了一个带有MALLET的LDA模型，并为训练和测试数据进行了70/30分割。

但是困惑值很奇怪，因为它们对于测试集而言比训练集更低。这怎么可能？我认为该模型更适合训练数据？

我已经仔细检查了我的困惑计算，但我没有发现错误。你知道原因是什么吗？

提前谢谢！

修改

我没有使用控制台输出作为训练集的LL /令牌值，而是再次使用训练集上的评估器。现在这些价值似乎是合理的。

1 个答案:

答案 0 :(得分：3)

这是有道理的。 LL /令牌编号为您提供了主题分配和观察到的单词的概率，而保持概率为您提供了观察到的单词的边际概率，总结了主题。