通过K折交叉验证标准化数据

时间:2019-11-19 17:18:17

标签: python machine-learning pipeline cross-validation

我正在使用StratifiedKFold,因此我的代码如下所示

def train_model(X,y,X_test,folds,model):
    scores=[]
    for fold_n, (train_index, valid_index) in enumerate(folds.split(X, y)):
        X_train,X_valid = X[train_index],X[valid_index]
        y_train,y_valid = y[train_index],y[valid_index]        
        model.fit(X_train,y_train)
        y_pred_valid = model.predict(X_valid).reshape(-1,)
        scores.append(roc_auc_score(y_valid, y_pred_valid))
    print('CV mean score: {0:.4f}, std: {1:.4f}.'.format(np.mean(scores), np.std(scores)))
folds = StratifiedKFold(10,shuffle=True,random_state=0)
lr = LogisticRegression(class_weight='balanced',penalty='l1',C=0.1,solver='liblinear')
train_model(X_train,y_train,X_test,repeted_folds,lr)

现在在训练模型之前,我想对数据进行标准化,这是正确的方法?
1)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

在调用train_model函数之前执行此操作

2)
在这样的内部函数中进行标准化

def train_model(X,y,X_test,folds,model):
    scores=[]
    for fold_n, (train_index, valid_index) in enumerate(folds.split(X, y)):
        X_train,X_valid = X[train_index],X[valid_index]
        y_train,y_valid = y[train_index],y[valid_index]
        scaler = StandardScaler()
        X_train = scaler.fit_transform(X_train)
        X_vaid = scaler.transform(X_valid)
        X_test = scaler.transform(X_test)
        model.fit(X_train,y_train)
        y_pred_valid = model.predict(X_valid).reshape(-1,)

        scores.append(roc_auc_score(y_valid, y_pred_valid))

    print('CV mean score: {0:.4f}, std: {1:.4f}.'.format(np.mean(scores), np.std(scores)))

根据我在第二个选项中的了解,我不会泄漏数据。所以,如果我不使用管道,哪种方法是正确的?如果要使用交叉验证,该如何使用管道?

2 个答案:

答案 0 :(得分:0)

何时对数据进行标准化可能是一个更适合Cross Validated的问题。

IMO,如果您的数据很大,那么可能没什么大不了的(如果您使用的是k倍,则可能不是这种情况),但既然可以,最好在交叉验证中进行(k -fold)或选项2。

另外,请参见this,了解有关交叉验证中过度拟合的更多信息。

答案 1 :(得分:0)

实际上,第二个选项更好,因为缩放器看不到要缩放X_valid的{​​{1}}的值。

现在,如果您要使用管道,则可以执行以下操作:

X_train

然后使用from sklearn.pipeline import make_pipeline def train_model(X,y,X_test,folds,model): pipeline = make_pipeline(StandardScaler(), model) ... 代替pipeline。在每次modelfit调用时,它将自动标准化手头的数据。

请注意,您还可以使用scikit-learn的cross_val_score函数,其参数为predict