选择一个主题模型

时间:2017-08-02 13:25:02

标签: lda topic-modeling mallet

我是主题建模的新手,有点困惑。我已经用不同的主题数量值运行了MALLET。那么我怎么知道选择哪一个进行进一步分析呢?我知道那里有关于主题模型评估的论文,但我不能用这样的代码编写。

1 个答案:

答案 0 :(得分:1)

不要将主题数量视为文档的自然特征。它们不是多项分布的真正组合,因此没有“正确”的答案。有很多好的价值观。

您应该将主题数量视为集合地图的比例。如果您想要广泛的概述,请使用较少的主题。如果您想要更多细节,请使用更多。正确的数字是产生有意义的结果的价值,可以让您实现目标。