是否有人知道是否有办法使用R包mallet
将新文本数据分类为主题?
此软件包的一般例程是:
mallet.instances <- mallet.import(as.character(data$id),
as.character(data$text),
"Documents/Projects/tm/stopwords.txt")
topic.model <- MalletLDA(num.topics=10)
topic.model$loadDocuments(mallet.instances)
topic.model$setAlphaOptimization(20, 100) # optimise parameters after every 20 iterations which will be preceeded by 100 burnin
topic.model$train(1000) # train the model
topic.model$maximize(10) # pick the best topic for each token
但我无法找到使用预训练模型对新数据进行分类的方法。替代方案是使用topicmodels
包或通过命令行运行Mallet。这两个选项都是合理的(虽然我必须说我倾向于使用Mallet这个主题模型得到更有说服力的结果),但是如果我已经使用R包mallet
训练了一个模型并且我不想更改主题,找到一种使用mallet
包对数据进行分类的方法非常有用。