Question

我使用R相对较新。我有一个大约5000个数据点的数据集。我的目标是使用输入的注释预测类别。我有一个4500条记录的训练数据集和500条记录的测试数据集。我正在寻找2-3个可能帮助我这样做的软件包。我必须评估这些软件包并准备一份报告。任何人都可以建议我一些可能更容易使用，也更有效的好包。

同样，我有2列第一个是评论，基于此我必须预测类别。现在我已经定义了大约10个独立的类别。

大多数评论都有特定的关键字，我已将其定义为类别

一个这样的例子评论1 该网站非常好---＆gt;＆gt;类别将是WebsiteContent

评论2可能就像

优秀文章，非常详细---＆gt;＆gt;与上述相同的类别（WebsiteContent）

但是文章，网站等关键字非常有限，可以链接到类别

所有评论都不同，但基础关键字大致相同

谢谢，俺看

Answer 1

尽管您需要的是一组非常长且写得很好的if-else语句，但请尝试使用rpart和prp包中的包中的决策树。我之所以这样说，只是因为你正在努力学习，而我猜测这是你自己应该做的一些任务。

tree<-rpart(train$decision~train$comment, method"class")
prp(tree)

第一行构建模型，第二行绘制模型。实际上这可能有点落伍，但是因为你正在学习R这是一个有趣的事情，可以用于各种各样的事情。虽然，决策树可以更好地处理更多的预测变量。

使用predict(test,tree)在测试数据集上测试模型。