拟合后,GridSearchCV是否返回best_estimator_?

时间:2019-12-29 10:02:02

标签: python scikit-learn cross-validation k-fold

假设我们使用GridSearch调整SVM,如下所示:

algorithm = SVM()
parameters = {'kernel': ['rbf', 'sigmoid'], 'C': [0.1, 1, 10]}

grid= GridSearchCV(algorithm, parameters)
grid.fit(X, y)

然后,您希望在cross_val_score中使用最合适的参数/估计量。我的问题是,grid目前是哪种型号?它是表现最好的一个吗?换句话说,我们可以做

cross_val_scores = cross_val_score(grid, X=X, y=y)

或者我们应该使用

cross_val_scores = cross_val_score(grid.best_estimator_, X=X, y=y)

当我同时运行这两个程序时,我发现它们返回的分数不同,所以我很好奇这里的正确方法。 (我假设使用best_estimator_。)但是,这又引发了一个问题,即:仅使用grid作为模型有什么用?第一个?

1 个答案:

答案 0 :(得分:1)

安装cross_val_score后,您不需要GridSearchCV。它已经具有允许您访问交叉验证分数的属性。 cv_results_给您所有人。如果只想查看特定估算器的结果,则可以使用best_index属性对此进行索引。

cv_results = pd.DataFrame(grid.cv_results_)
cv_results.iloc[grid.best_index_]
mean_fit_time                        0.00046916
std_fit_time                         1.3785e-05
mean_score_time                     0.000251055
std_score_time                      1.19038e-05
param_C                                      10
param_kernel                                rbf
params               {'C': 10, 'kernel': 'rbf'}
split0_test_score                      0.966667
split1_test_score                             1
split2_test_score                      0.966667
split3_test_score                      0.966667
split4_test_score                             1
mean_test_score                            0.98
std_test_score                        0.0163299
rank_test_score                               1
Name: 5, dtype: object

您在拟合的GridSearchCV上调用的大多数方法都使用最佳模型(例如,grid.predict(...)为您提供了最佳模型的预测)。对于estimator,情况并非如此。您看到的差异可能来自此。 cross_val_score再次适合,但这次得分是grid.estimator,而不是grid.best_estimator_