更改MALLET中主题分发文件中列的顺序

时间:2017-03-16 18:21:21

标签: java sorting lda topic-modeling mallet

MALLET在训练主题模型时使用--output-doc-topics参数生成包含每个文档主题分布的制表符分隔文件。它看起来像这样:

doc#    filename    topic#    weight
0    file:/.../document_01.txt    3     0.2110215053763441    14    0.1330645161    ...

但是,我需要对此文件进行不同的排序以进行进一步处理。现在,列按降序主题权重(0.211 ...,0.133 ......等)排序。但是也可以通过升序主题数字(0,1,2,...)及其相应的权重对其进行排序吗?

最初,我认为可以使用Excel完成排序,但文件太大(> 20 GB)。

这可能是MALLET参数吗?我已查看了--help部分,但未发现任何相关内容。

否则,你能推荐一种能够进行这种排序的工具或API吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

如果您获得最新版本(2.0.8),则默认情况下按主题ID按排序顺序显示所有主题:

--doc-topics-max INTEGER
  When writing topic proportions per document with --output-doc-topics, do not print more than INTEGER number of topics.  A negative value indicates that all topics should be printed.
  Default is -1