我的问题涉及MALLET中的主题分配及其对结果解释的影响。
doc-topics-file指出每个主题在文件中所占的比例。但是,在列表的顶部(58%),我遇到了一个文件,该文件没有使用根据topic-keys-file组成主题X的单词之一。为了找到这种现象的答案,我检查了输出状态文件,并了解到许多单词已分配给主题X,而这些单词未出现在主题键列表中。
为什么短槌不仅仅根据topic-keys-文件中出现的单词(对于该主题而言最重要)来计算doc-topics-文件中某个主题的比例?
答案 0 :(得分:0)
主题键输出仅用作模型的人类可读摘要。主题实际上是整个词汇表上的概率分布,尽管对于大多数单词而言,任何给定主题中的概率仅与平滑参数成比例。每个主题最多打印100-200个主题词,可以更好地理解主题表示的含义,但是默认主题词的数量选择为适合每个终端线路一个主题。