我使用VowpalWabbit.LDA为某些文档集合生成主题。 输出文件如下所示:
Version 7.7.0
Min label:0.000000
Max label:1.000000
bits:18
0 pairs:
0 triples:
rank:0
lda:10
0 ngram:
0 skip:
options: --lda 10
0 21407.330078 1.025429 0.648226 0.917246 0.451278 0.801456 11463.415039 0.876181 1.105704 0.785956
1 39210.687500 0.814911 0.389153 0.473620 0.391765 0.688513 0.708061 0.526936 0.719026 0.659338
2 41573.523438 1.161345 0.583391 0.918144 0.318337 0.543920 0.704812 0.987455 0.633980 0.890918
3 2.759077 1.114242 0.662993 1.113668 0.632519 0.707388 26730.898438 1.074518 0.974116 0.909262
4 1.476383 1.263869 0.552380 0.838780 0.500615 0.529077 24156.128906 0.689529 1.400310 0.530180
5 1.083310 0.746087 0.539263 1.152820 0.496213 0.726304 17391.972656 0.809698 1.682978 0.925061
6 4.601943 1.551102 0.541617 1.532858 0.418091 1.432069 10.024081 1.992290 12924.787109 1.202141
我应该看到每个单词的标识符以及属于每个主题的概率。但我看到一些巨大的数字,如21407.330078。有人知道如何将这种输出格式转换为我想看的格式吗?
答案 0 :(得分:2)
看来你正在研究预测输出文件。它包含“推断的每个文档主题权重”,格式如下:“每行对应一个文档d。每列对应一个主题k”。
如果您需要有关单词的信息,请在命令行中添加“--readable_model topics.dat”参数。这将为您提供人类可读格式的主题,内容如下:“每行对应一个主题k。每列对应一个单词w” 请参阅https://github.com/JohnLangford/vowpal_wabbit/wiki/lda.pdf
答案 1 :(得分:0)
如果使用-a(审计)运行vw,则可以看到从单词到哈希值的映射。 我假设你需要规范化模型输出中的每一行,然后找到每个主题的顶部单词。