使用网格搜索的交叉验证返回比默认值更差的结果

时间:2017-04-20 22:11:24

标签: python machine-learning scikit-learn cross-validation grid-search

我在Python中使用scikitlearn来运行一些基本的机器学习模型。使用内置的GridSearchCV()函数,我确定了最好的"不同技术的参数,但其中许多表现比默认值差。我将默认参数作为一个选项包含在内,所以我很惊讶这种情况会发生。

例如:

from sklearn import svm, grid_search
from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(verbose=1)
parameters = {'learning_rate':[0.01, 0.05, 0.1, 0.5, 1],  
              'min_samples_split':[2,5,10,20], 
              'max_depth':[2,3,5,10]}
clf = grid_search.GridSearchCV(gbc, parameters)
t0 = time()
clf.fit(X_crossval, labels)
print "Gridsearch time:", round(time() - t0, 3), "s"
print clf.best_params_
# The output is: {'min_samples_split': 2, 'learning_rate': 0.01, 'max_depth': 2}

这与默认值相同,但max_depth为3.当我使用这些参数时,我的准确率为72%,而默认值为78%。

我做的一件事,我承认是可疑的,是我使用我的整个数据集进行交叉验证。然后在获得参数后,我使用相同的数据集运行它,分成75-25次训练/测试。

我的网格搜索是否有理由忽视了#34;上级"默认?

2 个答案:

答案 0 :(得分:4)

在整个数据集上运行交叉验证以进行参数和/或特征选择,在对同一数据集进行测试时肯定会出现问题。看起来这至少是问题的一部分。在数据子集上运行CV以进行参数优化,并保留一组用于测试,这是一种很好的做法。

假设您正在使用iris数据集(这是评论链接中示例中使用的数据集),这里是一个示例,说明GridSearchCV参数优化如何通过首先设置保留集来影响train_test_split

from sklearn import datasets
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier

iris = datasets.load_iris()
gbc = GradientBoostingClassifier()
parameters = {'learning_rate':[0.01, 0.05, 0.1, 0.5, 1], 
              'min_samples_split':[2,5,10,20], 
              'max_depth':[2,3,5,10]}

clf = GridSearchCV(gbc, parameters)
clf.fit(iris.data, iris.target)

print(clf.best_params_)
# {'learning_rate': 1, 'max_depth': 2, 'min_samples_split': 2}

现在使用随机训练子集重复网格搜索:

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(iris.data, iris.target, 
                                                 test_size=0.33, 
                                                 random_state=42)

clf = GridSearchCV(gbc, parameters)
clf.fit(X_train, y_train)

print(clf.best_params_)
# {'learning_rate': 0.01, 'max_depth': 5, 'min_samples_split': 2}

我发现使用这两种方法可以获得更高的分类准确度,这让我觉得你可能正在使用不同的数据 - 但是这里展示了在维持保持集的同时执行参数选择的基本要点。希望它有所帮助。

答案 1 :(得分:0)

您还可以使用Kfolds cross_validator factor

from sklearn import datasets
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold

iris = datasets.load_iris()
gbc = GradientBoostingClassifier()
parameters = {'learning_rate':[0.01, 0.05, 0.1, 0.5, 1], 
          'min_samples_split':[2,5,10,20], 
          'max_depth':[2,3,5,10]}

cv_test= KFold(n_splits=5)
clf = GridSearchCV(gbc, parameters,cv=cv_test)
clf.fit(iris.data, iris.target)

print(clf.best_params_)