我使用R相对较新。我有一个大约5000个数据点的数据集。 我的目标是使用输入的注释预测类别。 我有一个4500条记录的训练数据集和500条记录的测试数据集。 我正在寻找2-3个可能帮助我这样做的软件包。我必须评估这些软件包并准备一份报告。任何人都可以建议我一些可能更容易使用,也更有效的好包。
同样,我有2列 第一个是评论,基于此我必须预测类别。 现在我已经定义了大约10个独立的类别。
大多数评论都有特定的关键字,我已将其定义为类别
一个这样的例子 评论1 该网站非常好--->>类别将是WebsiteContent
评论2可能就像
优秀文章,非常详细--->>与上述相同的类别(WebsiteContent)
但是文章,网站等关键字非常有限,可以链接到类别
所有评论都不同,但基础关键字大致相同
谢谢, 俺看
答案 0 :(得分:0)
尽管您需要的是一组非常长且写得很好的if-else
语句,但请尝试使用rpart
和prp
包中的包中的决策树。我之所以这样说,只是因为你正在努力学习,而我猜测这是你自己应该做的一些任务。
tree<-rpart(train$decision~train$comment, method"class")
prp(tree)
第一行构建模型,第二行绘制模型。实际上这可能有点落伍,但是因为你正在学习R这是一个有趣的事情,可以用于各种各样的事情。虽然,决策树可以更好地处理更多的预测变量。
使用predict(test,tree)
在测试数据集上测试模型。