Stanford TMT的'summary.txt'文件的典型片段如下:
Topic00 37.47500834475079
term1 11.163093014855274
term2 2.8478206435760547
term3 1.905685547333616
term4 1.8341840331688735
到目前为止,我能够获得的关于这些数字的唯一信息是(来自http://nlp.stanford.edu/software/tmt/tmt-0.4):
[Snapshot]/summary.txt Human readable summary of the topic model, with top-20 terms per topic and how many words instances of each have occurred.
但是这个主题的数字意味着什么呢? (在此示例中,Topic00 37.47500834475079
)
答案 0 :(得分:0)
根据源代码中的文档,“每个主题看起来总共多少次”
答案 1 :(得分:0)
例如,您的输出有30个主题。每个主题显示其顶部单词,以及每个主题的这些单词的相对权重
答案 2 :(得分:0)
我猜这个值是主题中的分布。它还可以表达该主题的重要性。您可以在主题00之后看到数字,这是所有术语的权重之和。您还可以查看topic-term-distributions.csv主题。您将看到每行的总和等于"主题**"之后的数字。