计算缺少响应变量的训练集的MSE

时间:2018-10-23 21:34:51

标签: r machine-learning regression mse

我有一个带有响应变量ViolentCrimesPerPop的训练集,我故意将一个大型回归树与控件拟合

control1 <- rpart.control(minsplit=2, cp=1e-8, xval=20)

train_control <- rpart(ViolentCrimesPerPop ~ ., data=train, method='anova', control=control1)

然后我用它来预测测试集

predict1 <- predict(train_control, newdata=test)

但是我不确定如何计算测试集的均方误差,因为它需要响应变量ViolentCrimesPerPop,该变量在测试集中没有给出。有人可以给我提示如何解决这个问题吗?

3 个答案:

答案 0 :(得分:0)

如果您不知道地面真实性(响应变量),则将无法计算测试集的MSE。但是,可能会要求您将包含基本事实的数据集拆分为训练和测试。在这种情况下,您可以轻松计算MSE。

答案 1 :(得分:0)

您是否正在进行某些不提供测试集响应变量的Kaggle测试?

无论如何,尝试将您的训练集划分为新的子集,并使用part作为训练,其余部分用于测试模型。没有响应变量,您将无法评估模型性能。

答案 2 :(得分:0)

您可以找到仅了解基本事实的MSE。 如果您不知道测试标签,那么唯一的方法就是使用70%或80%的火车数据训练模型,并在其他20/30%的火车数据上测试MSE。