如何获得Mallet中主题单词的概率

时间:2017-02-07 12:28:52

标签: probability lda topic-modeling mallet

我在mallet中使用LDA来探索我的数据。我跑步没有任何问题,只需要有顶级单词的概率(比方说20个单词)

我使用此查询:

bin\mallet train-topics  --input tutorial.mallet  --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz  --output-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_doc_40t.txt

我不知道对单词概率的查询是什么。

2 个答案:

答案 0 :(得分:2)

您应该可以使用--topic-word-weights-file FILENAME选项。

输出文件的格式为

topic [tab] word [tab] weight

其中weight与主题中单词的概率成正比。除以主题的权重之和以获得标准化概率。

答案 1 :(得分:2)

迟到的答案,但谁知道,这可能对其他人有帮助。

MALLET 2.0.8有一个新功能,可以输出一个非常有趣的诊断文件,其中包含每个主题及其顶级单词的一系列指标。单词概率就是其中之一。

只需将--diagnostics-file FILENAME添加到您的train-topics命令。

为每个主题描述的单词数量与“--num-top-words”定义的单词数相同。

以下是详细文档的链接:http://mallet.cs.umass.edu/diagnostics.php。如果您不想重新训练主题,可以使用“状态”文件输出诊断文件。一切都在链接中描述。