R:使用朴素贝叶斯进行关键字提取

时间:2014-11-27 10:22:17

标签: r keyword extraction

我有一些文件,每个文件我都有他们的关键字。现在我想使用这些文档来训练模型。我的数据如下:

postag <- list()   
tfidf <- list()   
labels <- list()

每个列表的一个元素代表一个文档。有50个文件。所以 postag[[1]]是带有文档1中每个单词的词性标注的向量,tfidf[[1]]是带有文档1中每个单词的tfidffactor的向量,labels[[1]]是带有标签的向量(0 =没有关键字,1 =关键字)。注意:每个文档的单词都是有序的:因此postag[[1]][1]是文档1中第一个单词的POS,tfidf[[1]][1]是文档1中同一单词的tfidffactor,labels[[1]][1]表示如果这个词是关键词。

现在我想使用这50个文档来训练一个(朴素贝叶斯)模型,该模型预测一个单词是否是关键词。功能是tfidf因素和POS。有人能帮助我吗?

1 个答案:

答案 0 :(得分:3)

您可以使用e1071 package

data(iris)
m <- naiveBayes(Species ~., data = iris)
predict(m, iris)

请注意,列Species必须是因子变量 例如:

iris["Species"]<- as.factor(iris["Species"])

但在这种情况下Species已经是一个因素,所以你不必改变它。