关于mallet中的模型输出选项:
--output-model [FILENAME]
--output-state [FILENAME]
--output-doc-topics [FILENAME]
--output-topic-keys [FILENAME]
是否有文本文件的规范(哪个列对应于哪个值),这超出了this一般描述。
答案 0 :(得分:1)
这两个文件的输出格式
--output-doc-topics [FILENAME]
--output-topic-keys [FILENAME]
是一个csv文件(文本文件中以制表符分隔的值)。很容易读出这两个文件中发生的事情;有点不寻常的是,主题按强度排序,主题编号是文档主题文件的必要部分。
前两个文件
--output-model [FILENAME]
--output-state [FILENAME]
是“Java序列化数据,版本5”(从UNIX file
命令输出);我不知道有关详细信息的更深入的文档。
答案 1 :(得分:0)
如果您发现有用的内容,请进行修改!
--output-topic-keys
第一列是主题ID号,对应于每个标签首次出现在训练数据中的原始顺序。第二列是标签字符串。第三列是在我们停止的特定Gibbs采样状态下分配给该主题的令牌总数。最后一列是按主题划分的概率降序排列的20个单词的空格分隔列表。