使用sklearn进行线性回归+交叉验证模型培训

时间:2018-03-22 20:03:31

标签: python scikit-learn cross-validation

我是python sklearn的新手。我理解交叉验证的基础。如果我默认将数据拆分为3倍。 sklearn将使用不同的训练和测试数据集训练模型3次。我假设它产生3个不同的模型,我的意思是不同的w ^和d ^。这是正确的吗?我应该回来一个型号吗?如果我使用model.predict()来预测输入,我正在使用哪个模型?

1 个答案:

答案 0 :(得分:2)

交叉验证评估模型设置,而不是模型参数。

即。如果我使用错误的设置,例如具有20个参数超过10个数据点的LR,交叉验证将报告低分数,因为此设置中的模型不会推广,而不是因为模型参数错误。

如果在交叉验证后你得出结论模型概括得很好,那么所有训练过的模型都会非常相似。使用它们中的任何一个都是安全的,甚至可以通过对整个开发数据集进行训练来获得最终模型。