使用mallet包对新文本进行分类

时间:2015-12-08 07:51:18

标签: r lda topic-modeling mallet topicmodels

是否有人知道是否有办法使用R包mallet将新文本数据分类为主题?

此软件包的一般例程是:

mallet.instances <- mallet.import(as.character(data$id), 
                                 as.character(data$text), 
                                 "Documents/Projects/tm/stopwords.txt")

topic.model <- MalletLDA(num.topics=10)
topic.model$loadDocuments(mallet.instances)
topic.model$setAlphaOptimization(20, 100) # optimise parameters after every 20 iterations which will be preceeded by 100 burnin
topic.model$train(1000) # train the model
topic.model$maximize(10) # pick the best topic for each token

但我无法找到使用预训练模型对新数据进行分类的方法。替代方案是使用topicmodels包或通过命令行运行Mallet。这两个选项都是合理的(虽然我必须说我倾向于使用Mallet这个主题模型得到更有说服力的结果),但是如果我已经使用R包mallet训练了一个模型并且我不想更改主题,找到一种使用mallet包对数据进行分类的方法非常有用。

0 个答案:

没有答案