如何解决R中的randomForest错误(新数据中的预测变量不匹配)

时间:2017-02-03 22:06:24

标签: r random-forest

我很难排查下面的错误消息。我正在尝试在titanic数据集上执行随机森林模型。有没有办法解决这个错误?是否有代码来检查树中的级别?

Error in predict.randomForest(my_rf_model, test1) : Type of predictors in new data
    do not match that of the training data.

1 个答案:

答案 0 :(得分:1)

这可能是因为test1中的一个预测变量是一个因子变量,其值在原始数据集中不存在。例如,如果titanic有一个名为group的列可以包含值AB,但test1$group的值可以为C那么你会得到那个错误。

例如:

data(iris)
iris$group = factor(sample(c("A","B"), nrow(iris), replace=TRUE))
rf <- randomForest(Species ~ ., data=iris)

newdat = iris
newdat$group = "C"

predict(rf, newdata=newdat)
  

predict.randomForest(rf,newdata = newdat)中的错误:类型   新数据中的预测变量与训练数据的预测变量不匹配。