在进行交叉验证之前,我可以标准化所有数据吗?

时间:2018-04-08 10:37:32

标签: python machine-learning data-science

我正在做一个小机器学习项目。

我怀疑,我能否首先标准化所有数据X(标签除外)。 我只看到开发人员在分割列车后用fit_transform()transform()标准化列车集 - 测试集

代码示例:

import pandas as pd
dataset = pd.read_csv('../../dataset/dataset_experiment_1.csv')
X_no_stdize = dataset.iloc[:,:-1].values
y = dataset.iloc[:,86].values

from sklearn.preprocessing import StandardScaler
X = StandardScaler().fit_transform(X_no_stdize)

kfold = StratifiedKFold(n_splits=10, shuffle=True)

print('XGBoost')
model = XGBClassifier(booster='gbtree', objective='binary:logistic', learning_rate=0.2, max_depth=3)
f1_score = cross_val_score(model, X, y, cv=kfold, scoring=scoring3)
print('f1-score: ', f1_score.mean(), ' +- ', f1_score.std())

提前感谢您的协助。

0 个答案:

没有答案