用于大型数据集的主题建模工具(30GB)

时间:2014-07-14 10:18:05

标签: lda topic-modeling

我正在寻找一些适用于大型数据集的主题建模工具。

我目前的培训数据集是30 GB。我试过MALLET topic modeling,但总是得到OutOfMemoryError。

如果您有任何提示,请告诉我们。

3 个答案:

答案 0 :(得分:2)

您可以使用多种选项,并且此响应与其比较方式无关。

我认为对于这么大的数据集来说,重要的是使用近似后验推理的方法,而不一定是软件实现。根据{{​​3}},在时间和空间方面,在线变分贝叶斯推断比吉布斯采样更有效。虽然我从未使用它,但this paper包看起来不错。它在python中,项目的gensim有深入的教程。

对于直接来自源代码的代码,请参阅webpage模型LDA的作者之一David Blei的网页。他使用各种语言(R,Java,C ++)链接到多个实现。

答案 1 :(得分:1)

我建议使用“大数据”工具,例如graphlab,它支持主题建模:http://docs.graphlab.org/topic_modeling.html

答案 2 :(得分:1)

GraphLab Create topic model toolkit(使用Python API绑定)应该能够处理大的数据集。