术语文档矩阵,带有特定的单词列表

时间:2017-02-06 13:08:52

标签: r text-mining tm tf-idf

我一直在使用推文进行机器学习项目,包括分类问题。 因此,我有一套训练集和一组推文测试。

在训练集上,我计算了一个带有“tm”R包的TF-IDF矩阵:

library(tm)
text_matrix <- DocumentTermMatrix(myCorpus_2, 
                 control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE)))

现在,我想为我的测试数据集获取一个类似的术语文档矩阵,列中的单词相同。

在指定我想要的列列表时,我不知道如何生成TF-IDF矩阵。你们有谁知道我怎么办?

编辑:实际上,我正在寻找相当于R的sklearn.feature_extraction.text.TfidfVectorizer。

0 个答案:

没有答案