使用R进行文本分类

时间:2015-07-15 18:29:41

标签: r text-mining

我使用R相对较新。我有一个大约5000个数据点的数据集。 我的目标是使用输入的注释预测类别。 我有一个4500条记录的训练数据集和500条记录的测试数据集。 我正在寻找2-3个可能帮助我这样做的软件包。我必须评估这些软件包并准备一份报告。任何人都可以建议我一些可能更容易使用,也更有效的好包。

同样,我有2列 第一个是评论,基于此我必须预测类别。 现在我已经定义了大约10个独立的类别。

大多数评论都有特定的关键字,我已将其定义为类别

一个这样的例子 评论1 该网站非常好--->>类别将是WebsiteContent

评论2可能就像

优秀文章,非常详细--->>与上述相同的类别(WebsiteContent)

但是文章,网站等关键字非常有限,可以链接到类别

所有评论都不同,但基础关键字大致相同

谢谢, 俺看

1 个答案:

答案 0 :(得分:0)

尽管您需要的是一组非常长且写得很好的if-else语句,但请尝试使用rpartprp包中的包中的决策树。我之所以这样说,只是因为你正在努力学习,而我猜测这是你自己应该做的一些任务。

tree<-rpart(train$decision~train$comment, method"class")
prp(tree)

第一行构建模型,第二行绘制模型。实际上这可能有点落伍,但是因为你正在学习R这是一个有趣的事情,可以用于各种各样的事情。虽然,决策树可以更好地处理更多的预测变量。

使用predict(test,tree)在测试数据集上测试模型。