MALLET中的主题分配

时间:2018-07-16 08:52:51

标签: mallet

我的问题涉及MALLET中的主题分配及其对结果解释的影响。

doc-topics-file指出每个主题在文件中所占的比例。但是,在列表的顶部(58%),我遇到了一个文件,该文件没有使用根据topic-keys-file组成主题X的单词之一。为了找到这种现象的答案,我检查了输出状态文件,并了解到许多单词已分配给主题X,而这些单词未出现在主题键列表中。

为什么短槌不仅仅根据topic-keys-文件中出现的单词(对于该主题而言最重要)来计算doc-topics-文件中某个主题的比例?

1 个答案:

答案 0 :(得分:0)

主题键输出仅用作模型的人类可读摘要。主题实际上是整个词汇表上的概率分布,尽管对于大多数单词而言,任何给定主题中的概率仅与平滑参数成比例。每个主题最多打印100-200个主题词,可以更好地理解主题表示的含义,但是默认主题词的数量选择为适合每个终端线路一个主题。