如何在R中保存主题模型并在不同的数据上运行它

时间:2018-05-05 20:16:22

标签: r lda

我对主题模型相当新。我有两个文档集,想要比较不同语料库中相同主题的出现频率。我在两个语料库的文档的组合样本上运行了一个包含40个主题的主题模型。我现在想要保存模型并单独为两个语料库运行它。我正在使用主题模型包,并认为我必须填写save = 1(见下文),但我不确定。有谁知道怎么做?

control_LDA_VEM <-
+    list(estimate.alpha = TRUE, alpha = 50/k, estimate.beta = TRUE,
+         verbose = 0, prefix = tempfile(), save = 1, keep = 0,
+         seed = as.integer(Sys.time()), nstart = 1, best = TRUE,
+         var = list(iter.max = 500, tol = 10^-6),
+         em = list(iter.max = 1000, tol = 10^-4),
+         initialize = "random")

1 个答案:

答案 0 :(得分:0)

save参数实际上用于保存/不保存中间结果,使用prefix参数设置存储结果的位置(tempfile()为您生成系统位置)

要使用已保存的LDA模型,您只能在下一次LDA()来电中使用模型名称。您也可以使用该调用更改控制参数。假设您将所需的DTM划分为训练和测试集,这就是这个想法:

lda.train <- LDA(train, k = 10, control = control_LDA_VEM)
lda.test <- LDA(test, model=lda.train, control = list(estimate.beta = FALSE)

link可能对您有用。