我正在使用LDA算法将许多文档聚合到不同的主题中。 LDA算法需要输入参数:主题数。我怎么能确定这个?
我正在使用Reuter语料库对我的解决方案进行基准测试。 Reuter语料库已准备好主题编号。在集中Reuter文本时,我应该输入相同的主题编号吗?并将我的聚类结果与Reuter的结果进行比较?
但是在制作中,在基于主题实际聚类之前,我怎么能知道主题的数量。这有点像鸡蛋问题。
答案 0 :(得分:0)
你可以通过k方式解决这个问题。通过Silhouette(或肘曲线,但我想这将需要手动干预),您可以获得最佳数量的聚类。您可以使用此编号作为主题数。