我正在做一个小机器学习项目。
我怀疑,我能否首先标准化所有数据X(标签除外)。
我只看到开发人员在分割列车后用fit_transform()
和transform()
标准化列车集 - 测试集
代码示例:
import pandas as pd
dataset = pd.read_csv('../../dataset/dataset_experiment_1.csv')
X_no_stdize = dataset.iloc[:,:-1].values
y = dataset.iloc[:,86].values
from sklearn.preprocessing import StandardScaler
X = StandardScaler().fit_transform(X_no_stdize)
kfold = StratifiedKFold(n_splits=10, shuffle=True)
print('XGBoost')
model = XGBClassifier(booster='gbtree', objective='binary:logistic', learning_rate=0.2, max_depth=3)
f1_score = cross_val_score(model, X, y, cv=kfold, scoring=scoring3)
print('f1-score: ', f1_score.mean(), ' +- ', f1_score.std())
提前感谢您的协助。