Question

我有一些文件，每个文件我都有他们的关键字。现在我想使用这些文档来训练模型。我的数据如下：

postag <- list()   
tfidf <- list()   
labels <- list()

每个列表的一个元素代表一个文档。有50个文件。所以 postag[[1]]是带有文档1中每个单词的词性标注的向量，tfidf[[1]]是带有文档1中每个单词的tfidffactor的向量，labels[[1]]是带有标签的向量（0 =没有关键字，1 =关键字）。注意：每个文档的单词都是有序的：因此postag[[1]][1]是文档1中第一个单词的POS，tfidf[[1]][1]是文档1中同一单词的tfidffactor，labels[[1]][1]表示如果这个词是关键词。

现在我想使用这50个文档来训练一个（朴素贝叶斯）模型，该模型预测一个单词是否是关键词。功能是tfidf因素和POS。有人能帮助我吗？

Answer 1

您可以使用e1071 package：

data(iris)
m <- naiveBayes(Species ~., data = iris)
predict(m, iris)

请注意，列Species必须是因子变量例如：

iris["Species"]<- as.factor(iris["Species"])

但在这种情况下Species已经是一个因素，所以你不必改变它。

R：使用朴素贝叶斯进行关键字提取

1 个答案: