应用错误收集

时间：2014-09-12 12:14:38

标签： scikit-learn regression cross-validation

我正在使用渐变增强回归模型（GBRT）。

为了评估这个模型，我使用 10倍交叉验证，在每个中设置相同的参数，因此 btw折叠的唯一区别就是培训和测试数据集。

对于每个折叠，我计算确定系数作为拟合度量。

然而，我发现从每个折叠获得的确定系数存在巨大差异，例如，从fold_1到fold_10的确定系数是：

[0.95310245 0.89725342 0.886711 0.97063794 0.84182142 0.80870443 0.70535911 0.8888032 0.42510782 0.70421155]

虽然平均值为0.81且标准差为0.31，但确定系数为0.4，而另一次折叠为0.97。

，为什么会存在这么大的差异？这种差异是否表明我的模型表现不佳？

答案 0 :(得分：1)

通常这意味着你有过度拟合的问题，尝试选择不同的参数集。您可以在“参数估计使用网格搜索和交叉验证”中了解有关参数搜索的更多信息scikit-learn示例http://scikit-learn.org/stable/auto_examples/grid_search_digits.html