我对槌子比较陌生,需要知道: - 每个主题中的槌是否以某种方式产生排序? - 如果是这样,那么排序(即)在主题列表中的第一个是整个语料库中分布最高的那个?
谢谢!
答案 0 :(得分:4)
他们根据训练的概率进行排名,即第一个词最有可能出现在这个主题中,第二个词可能性较小,第三个较少,依此类推。这些与术语频率没有直接关系,尽管具有最高tfidf权重的单词更可能是最可能的。此外,吉布斯抽样与主题中的单词排名有很大关系 - 由于抽样中的随机性,您可以获得主题内单词的完全不同的概率。例如,尝试保存模型,然后使用--input-model选项重新训练 - 主题看起来非常相似但不一样。
也就是说,如果你需要在与LDA无关的语料库中看到术语的实际权重,你可以使用像Python中的NLTK这样的东西来检查频率分布,还可以使用类似于TFIDF的sklearn来获得更有意义的权重分布。