想象一个简单的回归问题,您正在使用Gradient Descent。为了正确实施,您将需要使用整个训练数据集的平均值来缩放值。想象一下,您的模型已经过训练,然后将其提供给另一个您希望预测的示例。如何相对于先前的数据集正确缩放?您是否将新示例包含在训练集中,然后利用该训练数据集+新数据点进行缩放?应该如何正确地做到这一点?
我指的是新数据点,这意味着该模型在训练和测试中都从未见过。如果训练集的缩放是针对整个集合而不是单个观察值完成的,那么如何处理传递给regr.predict()的任何内容的缩放。
想象一下您具有ndarray功能:
to_predict = [10, 12, 1, 330, 1311, 225].
用于训练和测试的数据集已经针对每个功能在0左右振荡。考虑到以下答案(伪代码,这就是为什么我要问正确的做法):
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
new_Xs = X_train.append(to_predict)
X_train_std_with_new = scalar.fit_transform(new_Xs)
scaled_to_predit = X_train_std_with_new[-1]
regr.predict(scaled_to_predict) ??