我已经在Stack Overflow数据转储的一部分上训练了一个带有MALLET的LDA模型,并为训练和测试数据进行了70/30分割。
但是困惑值很奇怪,因为它们对于测试集而言比训练集更低。这怎么可能?我认为该模型更适合训练数据?
我已经仔细检查了我的困惑计算,但我没有发现错误。你知道原因是什么吗?
提前谢谢!
修改
我没有使用控制台输出作为训练集的LL /令牌值,而是再次使用训练集上的评估器。现在这些价值似乎是合理的。
答案 0 :(得分:3)
这是有道理的。 LL /令牌编号为您提供了主题分配和观察到的单词的概率,而保持概率为您提供了观察到的单词的边际概率,总结了主题。