我在mallet中使用LDA来探索我的数据。我跑步没有任何问题,只需要有顶级单词的概率(比方说20个单词)
我使用此查询:
bin\mallet train-topics --input tutorial.mallet --num-topics 40 --optimize-interval 20 --output-state topic-state_doc_40t.gz --output-topic-keys tutorial_keys_doc_40t.txt --output-doc-topics tutorial_composition_doc_40t.txt
我不知道对单词概率的查询是什么。
答案 0 :(得分:2)
您应该可以使用--topic-word-weights-file FILENAME
选项。
输出文件的格式为
topic [tab] word [tab] weight
其中weight
与主题中单词的概率成正比。除以主题的权重之和以获得标准化概率。
答案 1 :(得分:2)
迟到的答案,但谁知道,这可能对其他人有帮助。
MALLET 2.0.8有一个新功能,可以输出一个非常有趣的诊断文件,其中包含每个主题及其顶级单词的一系列指标。单词概率就是其中之一。
只需将--diagnostics-file FILENAME
添加到您的train-topics命令。
为每个主题描述的单词数量与“--num-top-words”定义的单词数相同。
以下是详细文档的链接:http://mallet.cs.umass.edu/diagnostics.php。如果您不想重新训练主题,可以使用“状态”文件输出诊断文件。一切都在链接中描述。