sklearn:在RandomizedSearchCV中使用Pipeline?

时间:2015-01-27 19:49:48

标签: python numpy machine-learning scikit-learn

我希望能够在sklearn中的RandomizedSearchCV构造中使用管道。但是现在我认为只支持估算器。以下是我希望能够做到的一个例子:

import numpy as np

from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline

# get some data
iris = load_digits()
X, y = iris.data, iris.target

# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],}

# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)

# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, n_iter=50)
search.fit(X, y)

print search.grid_scores_

如果你这样运行,你会收到以下错误:

ValueError: Invalid parameter kernel for estimator Pipeline

在sklearn中有一个很好的方法吗?

2 个答案:

答案 0 :(得分:10)

RandomizedSearchCV,以及GridSearchCV支持支持管道(实际上,它们与其实施无关,管道设计相当于通常的分类器。)

如果您认为应该搜索哪些参数,问题的关键非常简单。由于管道由许多对象(几个变换器+分类器)组成,因此人们可能希望为分类器和变换器找到最佳参数。因此,您需要以某种方式区分从哪里获取/设置属性。

所以你需要做的就是说你想找到一个值,比如说,不仅仅是一些抽象的gamma(哪个管道根本没有),而是{{1}管道的分类器,在你的案例gamma中调用(这也证明了对名称的需要)。这可以使用双下划线语法来实现,这种语法在sklearn中广泛用于嵌套模型:

rbf_svm

答案 1 :(得分:0)

我认为this是您所需要的(第3节)。

pipeline.get_params().keys()->确保您的参数网格键与此键返回的键相匹配。