LDA模型主题词中每个单词后面的数字是什么意思?

时间:2014-11-20 03:04:06

标签: nlp lda topic-modeling

当我们使用LDA模型训练模型时,我们得到了属于LDA模型的一组共同主题的结果。主题中的每个单词都有一个数字。示例

topic - 0.004*great + 0.004*good + 0.004*like + 0.003*well + 0.003*best + 0.003*better 

这个号码是什么意思?

1 个答案:

答案 0 :(得分:2)

数字是概率。数字越大表示在生成文本的过程中选择主题后,选择该单词的概率越高。

如果您使用LDA模型创建文本,它将滚动骰子并选择主题分布(一组与您帖子中的类似的数字,用于确定主题在文本中出现的可能性) 。然后,它将滚动一个骰子以从分配中选择一个主题,然后滚动另一个骰子以从该主题中选择一个单词。它重复了文档中每个单词的最后两个步骤。

大多数情况下,反过来使用模型 - 通过查看现有文本,您会尝试找到生成模型的参数,以便创建您拥有的文本。