我正在使用由Blei开发的Dynamic Topic Models包。我是LDA的新手,但我明白了。
我想知道输出的名称是什么
lda-seq/topic-000-var-obs.dat
商店?
我知道lda-seq/topic-001-var-e-log-prob.dat
存储变分后验的对数,并通过在其上应用指数,我得到主题001中单词的概率。
谢谢
答案 0 :(得分:1)
主题-000-var-e-log-prob.dat存储主题1的变量后验的日志。
主题-001-var-e-log-prob.dat存储主题变量后验的日志2.
答案 1 :(得分:0)
我无法在任何地方找到具体的答案。但是,由于文档的sample.sh
状态
The code creates at least the following files:
- topic-???-var-e-log-prob.dat: the e-betas (word distributions) for topic ??? for all times.
...
- gam.dat
未提及topic-000-var-obs.dat
文件,表明大多数分析都不是必须的。
obs
建议观察。在example/model_run
结果中进行了一些挖掘后,我使用以下方法绘制了每个单词/标记的时期之和:
temp = scan("dtm/example/model_run/lda-seq/topic-000-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE)
plot(rowSums(temp.matrix))
结果如下:
非负值的总趋势正在下降并且许多值被覆盖(在这种情况下为-11.00972 = log(1.67e-05)
)建议这些值是权重或对模型的其他影响度量。该模型删除了一些令牌,其他人的影响/重要性逐渐减少。后期趋势可能是由预处理引起的,例如在创建字典时通过tf-idf排序令牌。
有趣的是,行总和值因地板令牌和具有更多正值的集合而异:
temp = scan("~/Documents/Python/inference/project/dtm/example/model_run/lda-seq/topic-009-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE)
plot(rowSums(temp.matrix))