我有一个训练数据集,其中包含40,000行,并且能够为我的数据集成功生成randomForest
。
我现在正尝试使用它来预测我的测试集。我的训练和测试数据集是2个不同的数据框,两个数据框之间的列名称不匹配。运行预测时出现错误。
library(randomForest)
set.seed(2018)
new_train_rf= randomForest(workdf.V1~.,data = new_train_df, mtry=6, ntree=25)
new_train_rf
summary(new_train_rf)
测试数据集预测:
test_pred = predict(new_train_rf, newdata=new_test_df)
test_pred
summary(test_pred)
eval(predvars,data,env)中的错误:找不到对象'Var57'
测试数据框中的列名称:
testdf.Var218_UYBR, testdf2.Var6, testdf2.Var13, testdf2.Var21
Training Datafame中的列名称:
workdf.Var218_UYBR, tempdf2.Var6, tempdf2.Var13, tempdf2.Var21
请帮助!我是R的新手,我一直在努力弄清为什么我的预测不起作用
答案 0 :(得分:0)
我将测试和培训数据分为2个不同的数据帧。在将df(测试和培训)中的列重命名以匹配之后,我能够成功运行预测。