我已开始使用Galago进行文档检索。我想使用LDA对一些文档(最初使用任何模型检索的文档)进行聚类。我更喜欢使用基于java的实现,可以使用Galago将其集成到我的代码中。如果您能让我知道LDA的开源实现更适合我的目的,我将不胜感激。
提前感谢您的帮助!
答案 0 :(得分:0)
本文提出了一种快速的LDA算法:
S上。 Arora,R。Ge,Y。Halpern,D。Mimno,A。Moitra,D。Sontag,Y。Wu,M。Zhu。一种实用的可证保证主题建模算法。第30届国际机器学习大会(ICML),2013年。
其中一位作者(D. Mimno)在github上有一个Java实现:https://github.com/mimno/anchor
我简要介绍了这个实现,并找到了良好而快速的结果。与所有LDA /主题建模一样,正确获取主题数量可能具有挑战性。