查找每个主题数量的整体连贯性槌

时间:2018-08-21 02:44:08

标签: mallet

Mallet提供了如下诊断文件:http://mallet.cs.umass.edu/diagnostics.xml

此文件中有一些措施,包括每个主题的连贯性。

1-诊断文件中此一致性度量的名称是什么?是CV,UMASS,UCI还是...?查看这些链接http://qpleple.com/topic-coherence-to-evaluate-topic-models/https://datascienceplus.com/evaluation-of-topic-modeling-topic-coherence/

2-在此页面https://docs.microsoft.com/en-us/azure/machine-learning/desktop-workbench/scenario-document-collection-analysis中,每组主题只有一个连贯性,但是在槌诊断文件中,如果有k个主题,则有k个连贯性值。例如,如果有50个主题,则有50个连贯性值,例如本示例http://mallet.cs.umass.edu/diagnostics.xml。每个主题都有一个独立的一致性值。每组主题的总体内容是什么?它只是每个主题集的一致性值的平均值吗?

3-是否有任何论文表明我们可以使用一致性值来选择最佳主题数?

0 个答案:

没有答案