动态主题模型输出 - Blei格式

时间:2013-03-27 21:55:30

标签: lda topic-modeling

我正在使用由Blei开发的Dynamic Topic Models包。我是LDA的新手,但我明白了。

我想知道输出的名称是什么 lda-seq/topic-000-var-obs.dat商店?

我知道lda-seq/topic-001-var-e-log-prob.dat存储变分后验的对数,并通过在其上应用指数,我得到主题001中单词的概率。

谢谢

2 个答案:

答案 0 :(得分:1)

主题-000-var-e-log-prob.dat存储主题1的变量后验的日志。

主题-001-var-e-log-prob.dat存储主题变量后验的日志2.

答案 1 :(得分:0)

我无法在任何地方找到具体的答案。但是,由于文档的sample.sh状态

The code creates at least the following files:
- topic-???-var-e-log-prob.dat: the e-betas (word distributions) for topic ??? for all times.  
...
- gam.dat

未提及topic-000-var-obs.dat文件,表明大多数分析都不是必须的。

投机

obs建议观察。在example/model_run结果中进行了一些挖掘后,我使用以下方法绘制了每个单词/标记的时期之和:

temp = scan("dtm/example/model_run/lda-seq/topic-000-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE) 
plot(rowSums(temp.matrix))

结果如下:

row sums

非负值的总趋势正在下降并且许多值被覆盖(在这种情况下为-11.00972 = log(1.67e-05))建议这些值是权重或对模型的其他影响度量。该模型删除了一些令牌,其他人的影响/重要性逐渐减少。后期趋势可能是由预处理引起的,例如在创建字典时通过tf-idf排序令牌。

有趣的是,行总和值因地板令牌和具有更多正值的集合而异:

different example

temp = scan("~/Documents/Python/inference/project/dtm/example/model_run/lda-seq/topic-009-var-obs.dat")
temp.matrix = matrix(temp, ncol = 10, byrow = TRUE) 
plot(rowSums(temp.matrix))