Mallet中的HLDA是否返回Word-Topic Distribution?

时间:2018-03-08 16:01:04

标签: topic-modeling mallet taxonomy-terms

我正在尝试使用主题模型生成提取术语的分类。因此,我不得不使用Hierarchical Latent Dirichlet分配。 但是,在获取主题树之后,我想注释主题,但我无法在Mallet中生成单词主题分发。 我已经检查了参数,似乎我能得到的唯一输出文件是输出状态,并且它没有显示所需的信息。

我在命令窗口中使用mallet实现,我使用以下命令行:

bin/mallet run cc.mallet.topics.tui.HierarchicalLDATUI --input my_corpus.mallet --output-state topic-statehlda.txt

我设法获得 topic-statehlda.txt ,其中包含单词的所有主题路径,并且我还可视化它(主题树TopicsTree的示例 - 术语在哪里修剪因为它们使树变大并且难以导航)。有些术语出现在多个主题中,因此我对单词主题分布感兴趣,以便能够选择最具代表性的术语。

你能告诉我吗?有没有办法以不同的方式检索主题标签?

我将HLDA应用于同一主题的文档,我只使用HLDA在自动提取的术语(名词短语)列表中提取可能的分类法,这看起来有意义还是不好的做法?

语料库是OCR保险文件的集合。我自动提取的分类法的示例是:

  汽车保险政策,汽车保险计划,摩托车保险计划,保险单,保险箱使用,保险单,防盗罩,挡风玻璃罩,综合保险,   故障保险,商用车政策,商用车,机动车,   车辆保单持有人,车辆保险公司,投保车辆

我试图构建一个分类法,表明前三个短语,例如,属于同一个节点(属于同一级别)

0 个答案:

没有答案