应用错误收集

如何确定文本聚类的LDA（Latent Dirichlet Allocation）算法中的主题数量？

时间：2014-01-14 09:21:47

标签： nlp data-mining lda

我正在使用LDA算法将许多文档聚合到不同的主题中。 LDA算法需要输入参数：主题数。我怎么能确定这个？

我正在使用Reuter语料库对我的解决方案进行基准测试。 Reuter语料库已准备好主题编号。在集中Reuter文本时，我应该输入相同的主题编号吗？并将我的聚类结果与Reuter的结果进行比较？

但是在制作中，在基于主题实际聚类之前，我怎么能知道主题的数量。这有点像鸡蛋问题。

1 个答案:

答案 0 :(得分：0)

你可以通过k方式解决这个问题。通过Silhouette（或肘曲线，但我想这将需要手动干预），您可以获得最佳数量的聚类。您可以使用此编号作为主题数。