我从一组文档中学习一个主题模型,并且运作良好。但我想知道现有系统是否会从模型中的主题和单词实际生成新文档。
IE中。说我想要一个主题0的新文档,Gensim / MALLET /其他工具中的任何一个实际上会产生一个新文档给出我的主题选择(或选择)的一些输入?或者这是一种自己的问题?
说我有两个主题:
topic #0: 0.009*river + 0.008*lake + 0.006*island + 0.005*mountain + 0.004*area + 0.004*park + 0.004*antarctic + 0.004*south + 0.004*mountains + 0.004*dam
topic #1: 0.026*relay + 0.026*athletics + 0.025*metres + 0.023*freestyle + 0.022*hurdles + 0.020*ret + 0.017*divisão + 0.017*athletes + 0.016*bundesliga + 0.014*medals
是否有任何工具将采用"主题0:.5,主题1:.5,长度:7" 并很好地生成如下文档:
island freestyle river south medals mountains area
或沿着这些方向的东西?如果已经存在,我不想复制它。
答案 0 :(得分:1)
您是否阅读了Mallet网站上的开发人员指南和教程?它概述了如何创建具有特定主题概率的文档:
StringBuilder topicZeroText = new StringBuilder();
Iterator<IDSorter> iterator = topicSortedWords.get(0).iterator();
int rank = 0;
while (iterator.hasNext() && rank < 5) {
IDSorter idCountPair = iterator.next();
topicZeroText.append(dataAlphabet.lookupObject(idCountPair.getID()) + " ");
rank++;
}
此代码创建一个具有主题0的高概率的新文档。可以轻松修改此代码以包含多个主题并具有一定长度。