如何使用槌获得单词主题概率

时间:2013-10-29 14:30:24

标签: java mallet

我使用mallet创建了一个并行主题模型。

我想为每个文档获得顶级单词。

为此,我试图获得一个词主题概率矩阵。

我将如何实现这一目标?

2 个答案:

答案 0 :(得分:8)

使用MALLET构建主题时,您有一个名为--word-topic-counts-file的选项。当您提供此选项并指定文件时,MALLET会在文件中的每一行中写入(主题,单词,概率)值。您可以稍后用C,Java或R(当然,任何语言)读取此文件,以创建所需的矩阵。

答案 1 :(得分:2)

就Praveen的答案提出一点意见。

使用--word-topic-counts-file,MALLET将创建一个文件,前几行看起来像这样:

0伊丽莎白19:1
1 needham 19:2 17:1
2死19:2
3母17:1 19:1 14:1

其中第一行表示单词 elizabeth 一次出现在主题19中;第二行表示单词 needham 与主题19关联两次,主题17关联一次; ......等等 虽然,这个文件没有给你明确的概率,你可以用它来计算它们。