Spark中的OnlineLDA和EMLDA有什么区别?

时间:2016-12-29 11:52:54

标签: apache-spark machine-learning spark-streaming apache-spark-mllib lda

我们正在开发一个项目,我们需要在主题识别上运行LDA,所以我们已经为此应用了OnlineLDA,但是当我们尝试增加迭代时,我们得到了OOM异常。

因此,如果它扩展得更好,我们会尝试转向EMLDA!

所以我的问题是哪一个在性能,内存管理等方面更好?

语料库大小: 86k +文档

主题编号: 2000+

PS:另一方面,我们需要在未来的Stream数据上应用LDA,我看到它的火花票,但似乎它仍处于保持状态,所以如果有人可以建议我一种方式可以像魅力一样工作。谢谢!

0 个答案:

没有答案