在斯坦福主题建模工具包(TMT)中,对主题的数字意味着什么(在输出文件“summary.txt”中)?

时间:2013-09-23 17:46:48

标签: nlp stanford-nlp lda topic-modeling

Stanford TMT的'summary.txt'文件的典型片段如下:

Topic00   37.47500834475079
    term1 11.163093014855274
    term2 2.8478206435760547
    term3 1.905685547333616
    term4 1.8341840331688735

到目前为止,我能够获得的关于这些数字的唯一信息是(来自http://nlp.stanford.edu/software/tmt/tmt-0.4):

[Snapshot]/summary.txt Human readable summary of the topic model, with top-20 terms per topic and how many words instances of each have occurred.

但是这个主题的数字意味着什么呢? (在此示例中,Topic00 37.47500834475079

3 个答案:

答案 0 :(得分:0)

根据源代码中的文档,“每个主题看起来总共多少次”

答案 1 :(得分:0)

例如,您的输出有30个主题。每个主题显示其顶部单词,以及每个主题的这些单词的相对权重

答案 2 :(得分:0)

我猜这个值是主题中的分布。它还可以表达该主题的重要性。您可以在主题00之后看到数字,这是所有术语的权重之和。您还可以查看topic-term-distributions.csv主题。您将看到每行的总和等于"主题**"之后的数字。