我有一个简单的sklearn类,我想将其用作sklearn管道的一部分。这个类只需要一个pandas数据帧X_DF
和一个分类列名,并调用pd.get_dummies
返回数据帧,并将该列转换为虚拟变量矩阵...
import pandas as pd
from sklearn.base import TransformerMixin, BaseEstimator
class dummy_var_encoder(TransformerMixin, BaseEstimator):
'''Convert selected categorical column to (set of) dummy variables
'''
def __init__(self, column_to_dummy='default_col_name'):
self.column = column_to_dummy
print self.column
def fit(self, X_DF, y=None):
return self
def transform(self, X_DF):
''' Update X_DF to have set of dummy-variables instead of orig column'''
# convert self-attribute to local var for ease of stepping through function
column = self.column
# add columns for new dummy vars, and drop original categorical column
dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)
new_DF = pd.concat([X_DF[column], dummy_matrix], axis=1)
return new_DF
现在使用它上面的变换器进行拟合/变换,我得到了预期的输出。对于一些玩具数据如下:
from sklearn import datasets
# Load toy data
iris = datasets.load_iris()
X = pd.DataFrame(iris.data, columns = iris.feature_names)
y = pd.Series(iris.target, name='y')
# Create Arbitrary categorical features
X['category_1'] = pd.cut(X['sepal length (cm)'],
bins=3,
labels=['small', 'medium', 'large'])
X['category_2'] = pd.cut(X['sepal width (cm)'],
bins=3,
labels=['small', 'medium', 'large'])
...我的虚拟编码器产生正确的输出:
encoder = dummy_var_encoder(column_to_dummy = 'category_1')
encoder.fit(X)
encoder.transform(X).iloc[15:21,:]
category_1
category_1 category_1_small category_1_medium category_1_large
15 medium 0 1 0
16 small 1 0 0
17 small 1 0 0
18 medium 0 1 0
19 small 1 0 0
20 small 1 0 0
但是,当我从如下定义的sklearn管道调用同一个变换器时:
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline
from sklearn.model_selection import KFold, GridSearchCV
# Define Pipeline
clf = LogisticRegression(penalty='l1')
pipeline_steps = [('dummy_vars', dummy_var_encoder()),
('clf', clf)
]
pipeline = Pipeline(pipeline_steps)
# Define hyperparams try for dummy-encoder and classifier
# Fit 4 models - try dummying category_1 vs category_2, and using l1 vs l2 penalty in log-reg
param_grid = {'dummy_vars__column_to_dummy': ['category_1', 'category_2'],
'clf__penalty': ['l1', 'l2']
}
# Define full model search process
cv_model_search = GridSearchCV(pipeline,
param_grid,
scoring='accuracy',
cv = KFold(),
refit=True,
verbose = 3)
一切顺利,直到我适应管道,此时我从虚拟编码器得到错误:
cv_model_search.fit(X,y=y)
在[101]中:cv_model_search.fit(X,y = y)为4中的每一个拟合3次 候选人,总共12个适合
无无无无 [CV] dummy_vars__column_to_dummy = category_1,clf__penalty = l1 .........
追踪(最近一次呼叫最后一次):
文件"",第1行,in cv_model_search.fit(X,Y = Y)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_search.py" ;, 第638行,合适 cv.split(X,y,groups)))
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;, 第779行,致电 而self.dispatch_one_batch(iterator):
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;, 第625行,在dispatch_one_batch中 self._dispatch(任务)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;, 第588行,在_dispatch中 job = self._backend.apply_async(batch,callback = cb)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py" ;, 第111行,在apply_async中 result = ImmediateResult(func)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/_parallel_backends.py" ;, 第332行,在 init 中 self.results = batch()
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/parallel.py" ;, 第131行,通话 返回[func(* args,** kwargs)for func,args,kwargs in self.items]
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/model_selection/_validation.py" ;, 第437行,在_fit_and_score中 estimator.fit(X_train,y_train,** fit_params)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py" ;, 第257行,合适 Xt,fit_params = self._fit(X,y,** fit_params)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py" ;, 第222行,在_fit中 ** fit_params_steps [名称])
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/externals/joblib/memory.py" ;, 第362行,通话 return self.func(* args,** kwargs)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/pipeline.py" ;, 第589行,在_fit_transform_one中 res = transformer.fit_transform(X,y,** fit_params)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/sklearn/base.py" ;, 第521行,在fit_transform中 return self.fit(X,y,** fit_params).transform(X)
文件"",第21行,在转换中 dummy_matrix = pd.get_dummies(X_DF [column],prefix = column)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py" ;, 第1964行, getitem return self._getitem_column(key)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/frame.py" ;, 第1971行,在_getitem_column中 return self._get_item_cache(key)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/generic.py" ;, 第1645行,在_get_item_cache中 values = self._data.get(item)
文件 " /home/max/anaconda3/envs/remine/lib/python2.7/site-packages/pandas/core/internals.py" ;, 第3599行,在得到 提高ValueError("不能使用空键标记索引")
ValueError:无法使用空键标记索引
答案 0 :(得分:2)
跟踪告诉您到底出了什么问题。学习诊断跟踪确实是非常宝贵的,特别是当你从图书馆继承你可能没有完全理解的时候。
现在,我已经在sklearn中做了很多继承,我可以毫无疑问地告诉你GridSearchCV
如果你输入fit
或者fit_transform
的数据类型会给你一些麻烦column
方法不是NumPy数组。正如Vivek在他的评论中提到的,X传递给你的fit方法不再是DataFrame。但我们先来看一下这条线索。
ValueError:无法使用空键标记索引
虽然Vivek对于NumPy阵列是正确的,但你还有另一个问题。您得到的实际错误是fit方法中encoder
的值为None。如果您要查看上面的__repr__
对象,您会看到dummy_var_encoder(column_to_dummy=None)
方法输出以下内容:
Pipeline
使用GridSearchCV
时,此参数将被初始化并传递给__init__
。这是一种在整个交叉验证和搜索方法中都可以看到的行为,并且输入参数中具有不同名称的属性会导致这样的问题。修复此问题将使您走上正确的道路。
修改def __init__(self, column='default_col_name'):
self.column = column
print(self.column)
方法将解决此特定问题:
__getitem__
然而,一旦你完成了这个问题,Vivek提到的问题就会重新开始,你将不得不处理这个问题。这是我之前遇到过的事情,但不是专门针对DataFrames。我想出了Use sklearn GridSearchCV
on custom class whose fit method takes 3 arguments中的解决方案。基本上我创建了一个实现GridSearchCV
方法的包装器,使得数据的外观和行为能够传递Pipeline
,dtype=pd.DataFrame
和其他方面使用的验证方法。交叉验证方法。
我做了这些更改,看起来您的问题来自验证方法check_array
。虽然使用dtype=np.float64
调用此方法可行,但线性模型会使用drop_first
调用此错误。为了解决这个问题而不是将原始数据与你的假人连接,你可以返回你的虚拟列并使用它们。无论如何都应该这样做,因为您不希望在您尝试适合的模型中包含虚拟列和原始数据。您也可以考虑使用fit
选项,但我要离开主题。因此,像这样更改def transform(self, X_DF):
''' Update X_DF to have set of dummy-variables instead of orig column'''
# convert self-attribute to local var for ease of stepping through function
column = self.column
# add columns for new dummy vars, and drop original categorical column
dummy_matrix = pd.get_dummies(X_DF[column], prefix=column)
return dummy_matrix
方法可以使整个过程按预期工作。
class Message
include Mongoid::Document
include Mongoid::Timestamps
field :text, type: String
belongs_to :user, foreign_key: :user_id
embedded_in :conversation
end