我们通常避免进行训练/测试,因为估计值将根据我们训练的样本和测试的样本而变化,因此,估计值将有所差异。然后,我们进行交叉验证。由于第二次迭代中的模型已经在第一次迭代中看到了一些数据,估计值是否仍会存在偏差?跨不同的迭代会不会出现信息泄漏?
>>> from sklearn.model_selection import cross_val_score
>>> cross_val_score(sgd_clf, X_train, y_train_5, cv=3,
scoring="accuracy") array([0.96355, 0.93795, 0.95615])