标签: lda topic-modeling mallet
我是主题建模的新手,有点困惑。我已经用不同的主题数量值运行了MALLET。那么我怎么知道选择哪一个进行进一步分析呢?我知道那里有关于主题模型评估的论文,但我不能用这样的代码编写。
答案 0 :(得分:1)
不要将主题数量视为文档的自然特征。它们不是多项分布的真正组合,因此没有“正确”的答案。有很多好的价值观。
您应该将主题数量视为集合地图的比例。如果您想要广泛的概述,请使用较少的主题。如果您想要更多细节,请使用更多。正确的数字是产生有意义的结果的价值,可以让您实现目标。