用于预测的Bootstrap置信区间

时间:2018-02-18 17:50:21

标签: machine-learning statistics prediction bootstrapping confidence-interval

我想计算样本外测试集预测中机器学习回归的RMSE的置信区间。

我的列车是样本的前80%,“样本外”测试集是样本的最后20%。我将测试集预测的RMSE视为样本外性能,并希望计算此RMSE的CI。

我的一个想法是在前80%中重新采样火车组,但每次迭代使用相同的测试集。这似乎代表了跨越不同可能的训练场景的测试集上的RMSE的CI。但是,它不会考虑测试集中可能的变化。

这种方法是否合理?有没有更好的方法来解决我的问题?谢谢!

1 个答案:

答案 0 :(得分:0)

您是否有理由将测试集修复为精确的观察样本?

一种方法是重复将数据集拆分为您当前使用的80-20比例的训练和测试集。在每次随机(更换)拆分后,照常进行。也就是说,训练您的模型,然后计算测试数据的RMSE。例如,您可以执行此表单的10,000个引导,保存关联的RMSE值,并计算这些值的置信区间。

参见,例如Hastie et al的第5章。