如何将新文本数据转换为预定义的dfm?

时间:2018-06-12 17:22:30

标签: quanteda

我正在使用包topicmodels进行主题建模。所以我新建了将数据分成火车组和测试组。我想知道是否可以将测试数据转换为预定义的dfm对象(由训练数据生成)。

由于

1 个答案:

答案 0 :(得分:0)

不仅在主题建模中,而且在其他样本外预测中,您可以将dfm_select()与DFM一起用作模式,以使DMF的功能与训练和测试集相同。

require(quanteda)
require(topicmodels)

corp_train <- data_corpus_irishbudget2010[1:7]
mt_train <- dfm(corp_train)
lda <- LDA(convert(mt_train, "topicmodels"),  10)

corp_test <- data_corpus_irishbudget2010[8:14]
mt_test <- dfm(corp_test)
mt_test <- dfm_select(mt_test, mt_train) # make the features identical

post <- posterior(lda, mt_test)
apply(post$topic, 1, which.max)