应用错误收集

Mahout LDA：实际可以使用的最大字典大小是多少？

时间：2012-12-06 02:32:54

标签： amazon-ec2 mahout bigdata lda

我在EC2上运行Mahout的LDA（使用Whirr）。你在实践中能够使用的最大词汇是什么？你能分享一些Hadoop / EC2设置吗？

理想情况下，我想在3M文档（1B令牌）的语料库中运行LDA，并附带一个20M令牌的字典。

我尝试了LDA的其他map-reduce实现（hadoop-lda，LDA先生），并且没有设法将其扩展到很远（请证明我错了！）

1 个答案:

答案 0 :(得分：0)

这类问题的最佳位置是Mahout邮件列表[1]。我自己没有尝试过LDA实现，但它是由twitter提供的，所以我猜它应该适合你的规模需求。

我确信邮件列表上的人可以给你一个更好的答案。

[1] https://cwiki.apache.org/confluence/display/MAHOUT/Mailing+Lists,+IRC+and+Archives