我一直在使用推文进行机器学习项目,包括分类问题。 因此,我有一套训练集和一组推文测试。
在训练集上,我计算了一个带有“tm”R包的TF-IDF矩阵:
library(tm)
text_matrix <- DocumentTermMatrix(myCorpus_2,
control = list(weighting = function(x) weightTfIdf(x, normalize = FALSE)))
现在,我想为我的测试数据集获取一个类似的术语文档矩阵,列中的单词相同。
在指定我想要的列列表时,我不知道如何生成TF-IDF矩阵。你们有谁知道我怎么办?
编辑:实际上,我正在寻找相当于R的sklearn.feature_extraction.text.TfidfVectorizer。