交叉验证网格搜索背后的理论

时间:2018-10-25 18:32:31

标签: python theory cross-validation grid-search

借助堆栈溢出的帮助,我成功地为决策树模型实现了带有交叉验证的网格搜索。

dtc = DecisionTreeClassifier()

parameter_grid = {'splitter': ['best', 'random'], 
        'min_samples_split': [15, 16, 17, 18, 19,20, 21, 22, 23, 24, 25,],
        'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10,],
        'criterion': ['gini', 'entropy'],
        'random_state': [0]}

cross_validation = StratifiedKFold(n_splits=10)

grid_search = GridSearchCV(dtc, param_grid=parameter_grid, cv=cross_validation)

grid_search.fit(x, y)

我的问题与背后的理论有关。

我知道k倍交叉验证将我的整个数据集分为k训练数据集和相应的验证数据集。

然后,我假设我的代码做了类似的事情:

  1. 将网格搜索k应用于k折叠的每个训练数据集。{p}

  2. 每个k倍的网格搜索的最佳参数都应用于相应的验证数据集。

  3. k倍的每个验证数据集计算验证错误

到目前为止,这是正确的吗?

我通过grid_search.best_score_和grid_search.best_params_获得的值是什么?这些是步骤3中的最佳验证错误(grid_search.best_score_)和网格搜索的相应最佳值(grid_search.best_params_)还是某个平均值?

我们非常欢迎任何帮助或澄清!

1 个答案:

答案 0 :(得分:0)

对于网格搜索的每种可能组合(在您的情况下为2 * 11 * 10 * 2 * 1 = 440),火车数据集将被拆分k次,并且k个验证集上的average错误超级参数的每种组合都在计算中。 平均误差最低的组合是grid_search.best_params_

例如:

{'splitter': 'best', 
        'min_samples_split': 20,
        'min_samples_leaf': 9,
        'criterion':  'entropy',
        'random_state': 0}