我试图在我的数据集上使用随机森林模型,该数据集有4679个观测值和13个变量。
我使用随机森林模型预测是否会失败。
在总共4679次观察中,我有66次观察,目标变量为NA。我想预测这66个部分是否会失败。
所以,我决定把我的火车数据分成第一个4613作为我的火车数据,剩下66行作为我的测试数据。
train<- Imputed_data[1:4613, ]
test <- Imputed_data[4614:4679, ]
然后我将以下代码用于我的随机森林
fit<- randomForest(claim.Qty.Accepted~., data=train, na.action=na.exclude)
我收到的培训混淆矩阵很清楚。 我尝试使用以下代码预测我的测试
#Prediction for test set
p2 <- predict(fit, test)
head(p2)
head(test$claim.Qty.Accepted)
caret::confusionMatrix(p2, test$claim.Qty.Accepted)
混淆矩阵为0,同时为“是”和“否”。
我后来以下面的数据框的形式保存了预测值p2;在表中我可以看到所有66个条目都有Yes和No classes。
t2<- data.frame(p2)
我很困惑为什么,混淆矩阵没有向我显示预测结果?这也是我正在遵循的预测测试结果的正确方法吗?任何领导都会有所帮助,因为我是该领域的新人。