为什么从10倍交叉验证中获得的模型性能得分存在巨大差异?

时间:2014-09-12 12:14:38

标签: scikit-learn regression cross-validation

我正在使用渐变增强回归模型(GBRT)。

为了评估这个模型,我使用 10倍交叉验证,在每个中设置相同的参数,因此 btw折叠的唯一区别就是培训和测试数据集

对于每个折叠,我计算确定系数作为拟合度量

然而,我发现从每个折叠获得的确定系数存在巨大差异,例如,从fold_1到fold_10的确定系数是:

[0.95310245 0.89725342 0.886711 0.97063794 0.84182142 0.80870443   0.70535911 0.8888032 0.42510782 0.70421155]

虽然平均值为0.81且标准差为0.31,但确定系数为0.4,而另一次折叠为0.97。

,为什么会存在这么大的差异?这种差异是否表明我的模型表现不佳?

1 个答案:

答案 0 :(得分:1)

通常这意味着你有过度拟合的问题,尝试选择不同的参数集。您可以在“参数估计使用网格搜索和交叉验证”中了解有关参数搜索的更多信息scikit-learn示例http://scikit-learn.org/stable/auto_examples/grid_search_digits.html