我正在开发一个应用程序来根据主题对文档进行聚类。我正在使用LDA(Latent Dirichlet Allocation)算法。现在原型准备好了,并且有一些结果。
我正在寻找一种合理的方法来测试它。我目前的方法是分别打印出主题和一些相关文件。并手动评估它们。我可以想到以下测试点:
有没有最佳做法?是否有任何客观指标而不是我的主观评价?
答案 0 :(得分:0)
1.训练之后,我们得到主题词矩阵P(z | w),每一行都是单词的主题分配,所以你可以打印出每个主题的前N个单词,并评估它们,它将eval主题与文档
进行比较会很容易2.我认为你在这里问的问题是训练是否收敛,我只是评估P(z | w),当P(z | w)稳定时,它意味着模型收敛于参数( alpha,beta,topic_num)我们选择。当我们调整主题num时,我们可以得到所有topic_num的稳定P(z | w),我们选择topic_num相对于max P(z | w)。你可以参考论文 http://psiexp.ss.uci.edu/research/papers/sciencetopics.pdf
3.如何调整alpha beta,以及调整topic_num的有效方法,Hanna M. Wallach对此做了大量研究,我只是凭直觉做到这一点,因为数据集太大http://people.cs.umass.edu/~wallach/