我有一些文件,每个文件我都有他们的关键字。现在我想使用这些文档来训练模型。我的数据如下:
postag <- list()
tfidf <- list()
labels <- list()
每个列表的一个元素代表一个文档。有50个文件。所以
postag[[1]]
是带有文档1中每个单词的词性标注的向量,tfidf[[1]]
是带有文档1中每个单词的tfidffactor的向量,labels[[1]]
是带有标签的向量(0 =没有关键字,1 =关键字)。注意:每个文档的单词都是有序的:因此postag[[1]][1]
是文档1中第一个单词的POS,tfidf[[1]][1]
是文档1中同一单词的tfidffactor,labels[[1]][1]
表示如果这个词是关键词。
现在我想使用这50个文档来训练一个(朴素贝叶斯)模型,该模型预测一个单词是否是关键词。功能是tfidf因素和POS。有人能帮助我吗?
答案 0 :(得分:3)
您可以使用e1071 package:
data(iris)
m <- naiveBayes(Species ~., data = iris)
predict(m, iris)
请注意,列Species
必须是因子变量
例如:
iris["Species"]<- as.factor(iris["Species"])
但在这种情况下Species
已经是一个因素,所以你不必改变它。