Mallet中的模型输出文件规范

时间:2016-01-26 13:42:46

标签: mallet

关于mallet中的模型输出选项:

--output-model [FILENAME]
--output-state [FILENAME] 
--output-doc-topics [FILENAME] 
--output-topic-keys [FILENAME]

是否有文本文件的规范(哪个列对应于哪个值),这超出了this一般描述。

2 个答案:

答案 0 :(得分:1)

这两个文件的输出格式

--output-doc-topics [FILENAME] 
--output-topic-keys [FILENAME]

是一个csv文件(文本文件中以制表符分隔的值)。很容易读出这两个文件中发生的事情;有点不寻常的是,主题按强度排序,主题编号是文档主题文件的必要部分。

前两个文件

--output-model [FILENAME]
--output-state [FILENAME]

是“Java序列化数据,版本5”(从UNIX file命令输出);我不知道有关详细信息的更深入的文档。

答案 1 :(得分:0)

如果您发现有用的内容,请进行修改!

--output-topic-keys第一列是主题ID号,对应于每个标签首次出现在训练数据中的原始顺序。第二列是标签字符串。第三列是在我们停止的特定Gibbs采样状态下分配给该主题的令牌总数。最后一列是按主题划分的概率降序排列的20个单词的空格分隔列表。