我想使用scikit-learn管道的第一步来生成玩具数据集,以评估我的分析性能。我想出的一个简单的示例解决方案如下所示:
import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklearn import cluster
class FeatureGenerator(TransformerMixin):
def __init__(self, num_features=None):
self.num_features = num_features
def fit(self, X, y=None, **fit_params):
return self
def transform(self, X, **transform_params):
return np.array(
range(self.num_features*self.num_features)
).reshape(self.num_features,
self.num_features)
def get_params(self, deep=True):
return {"num_features": self.num_features}
def set_params(self, **parameters):
self.num_features = parameters["num_features"]
return self
这个变压器在起作用。 G。被称为这样:
pipeline = Pipeline([
('pick_features', FeatureGenerator(100)),
('kmeans', cluster.KMeans())
])
pipeline = pipeline.fit(None)
classes = pipeline.predict(None)
print classes
一旦我尝试对此管道进行网格搜索,对我来说就很棘手:
parameter_sets = {
'pick_features__num_features' : [10,20,30],
'kmeans__n_clusters' : [2,3,4]
}
pipeline = Pipeline([
('pick_features', FeatureGenerator()),
('kmeans', cluster.KMeans())
])
g_search_estimator = GridSearchCV(pipeline, parameter_sets)
g_search_estimator.fit(None,None)
网格搜索期望样本和标签作为输入,并且不像管道那样健壮,管道不会抱怨None
作为输入参数:
TypeError: Expected sequence or array-like, got <type 'NoneType'>
这是有道理的,因为网格搜索需要将数据集划分为不同的cv分区。
除了上面的例子,我有很多参数,可以在数据集生成步骤中进行调整。因此,我需要一个解决方案,将此步骤包含在参数选择交叉验证中。
问题:有没有办法在第一个变压器内设置GridSearch的{{1}}和X
?或者解决方案怎么样,用多个不同的数据集(最好是并行)调用GridSearch?或者是否有人试图自定义y
或者可以指出一些阅读材料?
答案 0 :(得分:0)
您的代码非常干净,因此很高兴为您提供这种快速而肮脏的解决方案:
g_search_estimator.fit([1., 1., 1.],[1., 0., 0.])
g_search_estimator.best_params_
输出:
[tons of int64 to float64 conversion warnings]
{'kmeans__n_clusters': 4, 'pick_features__num_features': 10}
请注意,您需要3个样本,因为您正在进行(默认)3倍交叉验证。
由于GridSearchCV
对象执行检查而发生错误,因此在变换器有可能执行任何操作之前发生。所以我会对你的第一个问题说“不”:
有没有办法从里面设置GridSearch的X和y 第一个变压器?
修改强>
我意识到这是不必要的混淆,以下三行是等价的:
g_search_estimator.fit([1。,1.,1。],[1.,0.,0。])
g_search_estimator.fit([1。,1.,1。],无)
g_search_estimator.fit([1。,1.,1。])
很抱歉在那里匆匆扔掉了y
。
有关网格搜索如何计算不同网格点的分数的一些解释:当您将scoring=None
传递给GridSearchCV
构造函数时(这是默认值,这就是您在此处所拥有的),它会询问评分函数的估算器。如果有这样的功能,它将用于评分。对于KMeans
,默认分数函数基本上与到聚类中心的距离之和相反
这是一个无监督的指标,因此此处不需要y
。
总结一下,你将始终能够:
从第一个变换器
中设置GridSearch的Xs
只需将输入X
“转换”为完全不相关的内容,没有人会抱怨它。您确实需要一些输入random_X
现在,如果您想使用受监督的指标(我从您的问题中得到这种感觉),您还需要指定y
。
一个简单的场景是你有一个固定的y
向量,你想用它来尝试几个X
。然后你可以这样做:
g_search_estimator.fit(random_X, y, scoring=my_scoring_function)
它应该运行正常。如果你想搜索y
的不同值,它可能会有点棘手。