我正在使用渐变增强回归模型(GBRT)。
为了评估这个模型,我使用 10倍交叉验证,在每个中设置相同的参数,因此 btw折叠的唯一区别就是培训和测试数据集。
对于每个折叠,我计算确定系数作为拟合度量。
然而,我发现从每个折叠获得的确定系数存在巨大差异,例如,从fold_1到fold_10的确定系数是:
[0.95310245 0.89725342 0.886711 0.97063794 0.84182142 0.80870443 0.70535911 0.8888032 0.42510782 0.70421155]
虽然平均值为0.81且标准差为0.31,但确定系数为0.4,而另一次折叠为0.97。
,为什么会存在这么大的差异?这种差异是否表明我的模型表现不佳?
答案 0 :(得分:1)
通常这意味着你有过度拟合的问题,尝试选择不同的参数集。您可以在“参数估计使用网格搜索和交叉验证”中了解有关参数搜索的更多信息scikit-learn示例http://scikit-learn.org/stable/auto_examples/grid_search_digits.html