Question

我有一个简单的sklearn类，我想将其用作sklearn管道的一部分。这个类只需要一个pandas数据帧X_DF和一个分类列名，并调用pd.get_dummies返回数据帧，并将该列转换为虚拟变量矩阵...

import pandas as pd
from sklearn.base import TransformerMixin, BaseEstimator

class dummy_var_encoder(TransformerMixin, BaseEstimator):
    '''Convert selected categorical column to (set of) dummy variables    
    '''


    def __init__(self, column_to_dummy='default_col_name'):
        self.column = column_to_dummy
        print self.column

    def fit(self, X_DF, y=None):
        return self 

    def transform(self, X_DF):
        ''' Update X_DF to have set of dummy-variables instead of orig column'''        

        # convert self-attribute to local var for ease of stepping through function
        column = self.column

        # add columns for new dummy vars, and drop original categorical column
        dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)

        new_DF = pd.concat([X_DF[column], dummy_matrix], axis=1)

        return new_DF

现在使用它上面的变换器进行拟合/变换，我得到了预期的输出。对于一些玩具数据如下：

from sklearn import datasets
# Load toy data 
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')

# Create Arbitrary categorical features
X['category_1'] = pd.cut(X['sepal length (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

X['category_2'] = pd.cut(X['sepal width (cm)'], 
                         bins=3, 
                         labels=['small', 'medium', 'large'])

...我的虚拟编码器产生正确的输出：

encoder = dummy_var_encoder(column_to_dummy = 'category_1')
encoder.fit(X)
encoder.transform(X).iloc[15:21,:]

category_1
   category_1  category_1_small  category_1_medium  category_1_large
15     medium                 0                  1                 0
16      small                 1                  0                 0
17      small                 1                  0                 0
18     medium                 0                  1                 0
19      small                 1                  0                 0
20      small                 1                  0                 0

但是，当我从如下定义的sklearn管道调用同一个变换器时：

from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, GridSearchCV

# Define Pipeline
clf = LogisticRegression(penalty='l1')
pipeline_steps = [('dummy_vars', dummy_var_encoder()),
                  ('clf', clf)
                  ]

pipeline = Pipeline(pipeline_steps)

# Define hyperparams try for dummy-encoder and classifier
# Fit 4 models - try dummying category_1 vs category_2, and using l1 vs l2 penalty in log-reg
param_grid = {'dummy_vars__column_to_dummy': ['category_1', 'category_2'],
              'clf__penalty': ['l1', 'l2']
                  }

# Define full model search process 
cv_model_search = GridSearchCV(pipeline, 
                               param_grid, 
                               scoring='accuracy', 
                               cv = KFold(),
                               refit=True,
                               verbose = 3)

一切顺利，直到我适应管道，此时我从虚拟编码器得到错误：

cv_model_search.fit(X,y=y)

在[101]中：cv_model_search.fit（X，y = y）为4中的每一个拟合3次   候选人，总共12个适合

无无无无   [CV] dummy_vars__column_to_dummy = category_1，clf__penalty = l1 .........

追踪（最近一次呼叫最后一次）：

文件＆＃34;＆＃34;，第1行，in       cv_model_search.fit（X，Y = Y）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_search.py" ;,   第638行，合适       cv.split（X，y，groups）））

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;,   第779行，致电       而self.dispatch_one_batch（iterator）：

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;,   第625行，在dispatch_one_batch中       self._dispatch（任务）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;,   第588行，在_dispatch中       job = self._backend.apply_async（batch，callback = cb）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py" ;,   第111行，在apply_async中       result = ImmediateResult（func）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py" ;,   第332行，在 init 中       self.results = batch（）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;,   第131行，通话       返回[func（* args，** kwargs）for func，args，kwargs in self.items]

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_validation.py" ;,   第437行，在_fit_and_score中       estimator.fit（X_train，y_train，** fit_params）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py" ;,   第257行，合适       Xt，fit_params = self._fit（X，y，** fit_params）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py" ;,   第222行，在_fit中       ** fit_params_steps [名称]）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/memory.py" ;,   第362行，通话       return self.func（* args，** kwargs）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py" ;,   第589行，在_fit_transform_one中       res = transformer.fit_transform（X，y，** fit_params）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/base.py" ;,   第521行，在fit_transform中       return self.fit（X，y，** fit_params）.transform（X）

文件＆＃34;＆＃34;，第21行，在转换中       dummy_matrix = pd.get_dummies（X_DF [column]，prefix = column）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py" ;,   第1964行， getitem       return self._getitem_column（key）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py" ;,   第1971行，在_getitem_column中       return self._get_item_cache（key）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/generic.py" ;,   第1645行，在_get_item_cache中       values = self._data.get（item）

文件   ＆＃34; /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/internals.py" ;,   第3599行，在得到       提高ValueError（＆＃34;不能使用空键标记索引＆＃34;）

ValueError：无法使用空键标记索引

Answer 1

跟踪告诉您到底出了什么问题。学习诊断跟踪确实是非常宝贵的，特别是当你从图书馆继承你可能没有完全理解的时候。

现在，我已经在sklearn中做了很多继承，我可以毫无疑问地告诉你GridSearchCV如果你输入fit或者fit_transform的数据类型会给你一些麻烦column方法不是NumPy数组。正如Vivek在他的评论中提到的，X传递给你的fit方法不再是DataFrame。但我们先来看一下这条线索。

ValueError：无法使用空键标记索引

虽然Vivek对于NumPy阵列是正确的，但你还有另一个问题。您得到的实际错误是fit方法中encoder的值为None。如果您要查看上面的__repr__对象，您会看到dummy_var_encoder(column_to_dummy=None)方法输出以下内容：

Pipeline

使用GridSearchCV时，此参数将被初始化并传递给__init__。这是一种在整个交叉验证和搜索方法中都可以看到的行为，并且输入参数中具有不同名称的属性会导致这样的问题。修复此问题将使您走上正确的道路。

修改def __init__(self, column='default_col_name'): self.column = column print(self.column)方法将解决此特定问题：

__getitem__

然而，一旦你完成了这个问题，Vivek提到的问题就会重新开始，你将不得不处理这个问题。这是我之前遇到过的事情，但不是专门针对DataFrames。我想出了Use sklearn GridSearchCV on custom class whose fit method takes 3 arguments中的解决方案。基本上我创建了一个实现GridSearchCV方法的包装器，使得数据的外观和行为能够传递Pipeline，dtype=pd.DataFrame和其他方面使用的验证方法。交叉验证方法。

修改

我做了这些更改，看起来您的问题来自验证方法check_array。虽然使用dtype=np.float64调用此方法可行，但线性模型会使用drop_first调用此错误。为了解决这个问题而不是将原始数据与你的假人连接，你可以返回你的虚拟列并使用它们。无论如何都应该这样做，因为您不希望在您尝试适合的模型中包含虚拟列和原始数据。您也可以考虑使用fit选项，但我要离开主题。因此，像这样更改def transform(self, X_DF): ''' Update X_DF to have set of dummy-variables instead of orig column''' # convert self-attribute to local var for ease of stepping through function column = self.column # add columns for new dummy vars, and drop original categorical column dummy_matrix = pd.get_dummies(X_DF[column], prefix=column) return dummy_matrix方法可以使整个过程按预期工作。

class Message
  include Mongoid::Document
  include Mongoid::Timestamps

  field :text,      type: String

  belongs_to :user, foreign_key: :user_id
  embedded_in :conversation
end

自定义Sklearn Transformer单独工作，在管道中使用时出现错误

1 个答案:

修改