我使用mallet创建了一个并行主题模型。
我想为每个文档获得顶级单词。
为此,我试图获得一个词主题概率矩阵。
我将如何实现这一目标?
答案 0 :(得分:8)
使用MALLET构建主题时,您有一个名为--word-topic-counts-file
的选项。当您提供此选项并指定文件时,MALLET会在文件中的每一行中写入(主题,单词,概率)值。您可以稍后用C,Java或R(当然,任何语言)读取此文件,以创建所需的矩阵。
答案 1 :(得分:2)
就Praveen的答案提出一点意见。
使用--word-topic-counts-file
,MALLET将创建一个文件,前几行看起来像这样:
0伊丽莎白19:1
1 needham 19:2 17:1
2死19:2
3母17:1 19:1 14:1
其中第一行表示单词 elizabeth 一次出现在主题19中;第二行表示单词 needham 与主题19关联两次,主题17关联一次; ......等等 虽然,这个文件没有给你明确的概率,你可以用它来计算它们。