在R:决策树中使用tm和rpart来处理文本数据?

时间:2017-03-03 11:01:09

标签: r tm rpart

我正在使用R中的tm包创建一个文本文档语料库,我想创建一个带rpart的决策树用于分类目的。但是,我无法在互联网上找到有关使用rpart的文字数据的任何示例。它甚至可能还是有其他我可以使用的包?

1 个答案:

答案 0 :(得分:1)

这是一个启动者:

library(tm)
library(rpart)
docs <- c(txt1="Hello world", txt2="lorem ipsum")
dtm <- DocumentTermMatrix(Corpus(VectorSource(docs)), control = list(weight = weightBin))
m <- as.matrix(dtm)
train <- as.data.frame(m)
train$Docs <- factor(rownames(m), labels=names(docs))
fit <- rpart(Docs~.,data=train, control = rpart.control(minsplit=1))
test <- data.frame(hello=c(1,0),world=c(0,0),ipsum=c(0,1),lorem=c(0,0), row.names=letters[1:2])
predict(fit, newdata=test, type="class")
#    a    b 
# txt1 txt2 
# Levels: txt1 txt2