如何在mallet中将新文档添加到现有主题模型,或者为大文档计数批量处理模型

时间:2014-10-29 10:17:27

标签: lda mallet

我想使用主题建模,发现MALLET适合我。
我成功创建了我的第一个演示,使用了大约10万个Documents.Now根据我的要求,我必须处理1000万个文件,这些文档无法进一步处理。是否可以将新文档添加到现有主题模型或类似创建两个模型和合并到单个模型并通过合并所有模型获得输出,因为mallet无法一次性处理这样的大型文档,我们正在考虑批量模型并通过合并所有文档获得输出。 比方说,我将制作100批10万份文件并在每批上运行槌,最后通过合并所有100批来获得结果

谢谢

1 个答案:

答案 0 :(得分:0)

我不这么认为,这对Mallet来说是可能的。我不认为一旦你创建了模型,你可以逐步将新文档添加到训练有素的模型中并重新训练。

我会等人支持或反驳我的回答。