如何确定文本聚类的LDA(Latent Dirichlet Allocation)算法中的主题数量?

时间:2014-01-14 09:21:47

标签: nlp data-mining lda

我正在使用LDA算法将许多文档聚合到不同的主题中。 LDA算法需要输入参数:主题数。我怎么能确定这个?

我正在使用Reuter语料库对我的解决方案进行基准测试。 Reuter语料库已准备好主题编号。在集中Reuter文本时,我应该输入相同的主题编号吗?并将我的聚类结果与Reuter的结果进行比较?

但是在制作中,在基于主题实际聚类之前,我怎么能知道主题的数量。这有点像鸡蛋问题。

1 个答案:

答案 0 :(得分:0)

你可以通过k方式解决这个问题。通过Silhouette(或肘曲线,但我想这将需要手动干预),您可以获得最佳数量的聚类。您可以使用此编号作为主题数。