我正在尝试使用主题模型生成提取术语的分类。因此,我不得不使用Hierarchical Latent Dirichlet分配。 但是,在获取主题树之后,我想注释主题,但我无法在Mallet中生成单词主题分发。 我已经检查了参数,似乎我能得到的唯一输出文件是输出状态,并且它没有显示所需的信息。
我在命令窗口中使用mallet实现,我使用以下命令行:
bin/mallet run cc.mallet.topics.tui.HierarchicalLDATUI --input my_corpus.mallet --output-state topic-statehlda.txt
我设法获得 topic-statehlda.txt ,其中包含单词的所有主题路径,并且我还可视化它(主题树TopicsTree的示例 - 术语在哪里修剪因为它们使树变大并且难以导航)。有些术语出现在多个主题中,因此我对单词主题分布感兴趣,以便能够选择最具代表性的术语。
你能告诉我吗?有没有办法以不同的方式检索主题标签?我将HLDA应用于同一主题的文档,我只使用HLDA在自动提取的术语(名词短语)列表中提取可能的分类法,这看起来有意义还是不好的做法?
语料库是OCR保险文件的集合。我自动提取的分类法的示例是:
汽车保险政策,汽车保险计划,摩托车保险计划,保险单,保险箱使用,保险单,防盗罩,挡风玻璃罩,综合保险, 故障保险,商用车政策,商用车,机动车, 车辆保单持有人,车辆保险公司,投保车辆
我试图构建一个分类法,表明前三个短语,例如,属于同一个节点(属于同一级别)