应用错误收集

时间：2018-03-07 19:56:02

标签： python machine-learning scikit-learn cross-validation grid-search

我目前正在研究一个问题，该问题比较了同一数据集上三种不同的机器学习算法性能。我将数据集划分为70/30个训练/测试集，然后使用GridSearchCV和X_train, y_train对每个算法的最佳参数进行网格搜索。

第一个问题，我想在训练集上进行网格搜索还是假设它在整个数据集上？

第二个问题，我知道GridSearchCV在其实现中使用了K-fold，这是否意味着如果我对GridSearchCV中比较的所有三种算法使用相同的X_train, y_train进行交叉验证？

任何答案都将不胜感激，谢谢。

答案 0 :(得分：20)

scikit中名称以CV结尾的所有估算工具都会执行交叉验证。但是您需要保留一个单独的测试集来衡量性能。

因此，您需要将整个数据拆分为训练和测试。暂时忘掉这个测试数据。

然后将此列车数据仅传递给网格搜索。 GridSearch将此列车数据进一步分解为训练和测试，以调整传递给它的超参数。最后使用最佳参数将模型拟合到整个列车数据上。

现在您需要在开始时保留的测试数据上测试此模型。这将为您提供近乎真实的模型性能。

如果您将整个数据用于GridSearchCV，那么测试数据会泄漏到参数调整中，然后最终模型可能无法在较新的看不见的数据上表现良好。

您可以查看我更详细描述GridSearch的其他答案：

答案 1 :(得分：6)

是的，GridSearchCV执行交叉验证。如果我正确理解了这个概念 - 您希望保留模型中看不到的部分数据集以进行测试。

因此，您可以针对列车数据集训练模型，并在测试数据集上进行测试。

Here I was doing almost the same - 你可能想检查一下......