我在EC2上运行Mahout的LDA(使用Whirr)。你在实践中能够使用的最大词汇是什么?你能分享一些Hadoop / EC2设置吗?
理想情况下,我想在3M文档(1B令牌)的语料库中运行LDA,并附带一个20M令牌的字典。
我尝试了LDA的其他map-reduce实现(hadoop-lda,LDA先生),并且没有设法将其扩展到很远(请证明我错了!)
答案 0 :(得分:0)
这类问题的最佳位置是Mahout邮件列表[1]。我自己没有尝试过LDA实现,但它是由twitter提供的,所以我猜它应该适合你的规模需求。
我确信邮件列表上的人可以给你一个更好的答案。
[1] https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives