我正在寻找一些适用于大型数据集的主题建模工具。
我目前的培训数据集是30 GB。我试过MALLET topic modeling,但总是得到OutOfMemoryError。
如果您有任何提示,请告诉我们。
答案 0 :(得分:2)
您可以使用多种选项,并且此响应与其比较方式无关。
我认为对于这么大的数据集来说,重要的是使用近似后验推理的方法,而不一定是软件实现。根据{{3}},在时间和空间方面,在线变分贝叶斯推断比吉布斯采样更有效。虽然我从未使用它,但this paper包看起来不错。它在python中,项目的gensim有深入的教程。
对于直接来自源代码的代码,请参阅webpage模型LDA的作者之一David Blei的网页。他使用各种语言(R,Java,C ++)链接到多个实现。
答案 1 :(得分:1)
我建议使用“大数据”工具,例如graphlab,它支持主题建模:http://docs.graphlab.org/topic_modeling.html
答案 2 :(得分:1)
GraphLab Create topic model toolkit(使用Python API绑定)应该能够处理大的数据集。