MALLET在训练主题模型时使用--output-doc-topics
参数生成包含每个文档主题分布的制表符分隔文件。它看起来像这样:
doc# filename topic# weight
0 file:/.../document_01.txt 3 0.2110215053763441 14 0.1330645161 ...
但是,我需要对此文件进行不同的排序以进行进一步处理。现在,列按降序主题权重(0.211 ...,0.133 ......等)排序。但是也可以通过升序主题数字(0,1,2,...)及其相应的权重对其进行排序吗?
最初,我认为可以使用Excel完成排序,但文件太大(> 20 GB)。
这可能是MALLET参数吗?我已查看了--help
部分,但未发现任何相关内容。
否则,你能推荐一种能够进行这种排序的工具或API吗?
谢谢!
答案 0 :(得分:1)
如果您获得最新版本(2.0.8),则默认情况下按主题ID按排序顺序显示所有主题:
--doc-topics-max INTEGER
When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics. A negative value indicates that all topics should be printed.
Default is -1