作为没有任何预处理的交叉验证的例子,我可以这样做:
tuned_params = [{"penalty" : ["l2", "l1"]}]
from sklearn.linear_model import SGDClassifier
SGD = SGDClassifier()
from sklearn.grid_search import GridSearchCV
clf = GridSearchCV(myClassifier, params, verbose=5)
clf.fit(x_train, y_train)
我想使用
之类的东西预处理我的数据from sklearn import preprocessing
x_scaled = preprocessing.scale(x_train)
但是在设置交叉验证之前这样做并不是一个好主意,因为培训和测试集将一起标准化。如何设置交叉验证以在每次运行时单独预处理相应的培训和测试集?