应用错误收集

我正在做一个小机器学习项目。

我怀疑，我能否首先标准化所有数据X（标签除外）。我只看到开发人员在分割列车后用fit_transform()和transform()标准化列车集 - 测试集

代码示例：

import pandas as pd
dataset = pd.read_csv('../../dataset/dataset_experiment_1.csv')
X_no_stdize = dataset.iloc[:,:-1].values
y = dataset.iloc[:,86].values

from sklearn.preprocessing import StandardScaler
X = StandardScaler().fit_transform(X_no_stdize)

kfold = StratifiedKFold(n_splits=10, shuffle=True)

print('XGBoost')
model = XGBClassifier(booster='gbtree', objective='binary:logistic', learning_rate=0.2, max_depth=3)
f1_score = cross_val_score(model, X, y, cv=kfold, scoring=scoring3)
print('f1-score: ', f1_score.mean(), ' +- ', f1_score.std())

提前感谢您的协助。

在进行交叉验证之前，我可以标准化所有数据吗？

0 个答案: