Question

想象一个简单的回归问题，您正在使用Gradient Descent。为了正确实施，您将需要使用整个训练数据集的平均值来缩放值。想象一下，您的模型已经过训练，然后将其提供给另一个您希望预测的示例。如何相对于先前的数据集正确缩放？您是否将新示例包含在训练集中，然后利用该训练数据集+新数据点进行缩放？应该如何正确地做到这一点？

我指的是新数据点，这意味着该模型在训练和测试中都从未见过。如果训练集的缩放是针对整个集合而不是单个观察值完成的，那么如何处理传递给regr.predict（）的任何内容的缩放。

想象一下您具有ndarray功能：

to_predict = [10, 12, 1, 330, 1311, 225].

用于训练和测试的数据集已经针对每个功能在0左右振荡。考虑到以下答案（伪代码，这就是为什么我要问正确的做法）：

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

new_Xs = X_train.append(to_predict)

X_train_std_with_new = scalar.fit_transform(new_Xs)

scaled_to_predit = X_train_std_with_new[-1]

regr.predict(scaled_to_predict) ??

如何正确缩放新数据点

0 个答案: