我是否通过标准化数据来加紧整个数据科学作业的分配?

时间:2019-04-23 10:08:41

标签: r machine-learning regression supervised-learning

教授希望我们对数据集进行约10倍交叉验证,以获取最低的RMSE,并使用该系数来制作一个函数,该函数接受参数并预测并返回“健身因子”得分,范围在25之间-75。

他鼓励我们尝试转换数据,所以我做到了。我对整个数据集使用scale()对其进行标准化,然后进行回归和10倍交叉验证。然后,我找到了我想要的模型,并复制了系数。问题是,当我将非标准参数放入y时,我的函数预测将变得遥遥无期。

我是否通过将数据标准化为平均值0和sd 1来完全解决这个问题?如果我搞砸了,有什么办法可以消除这种混乱吗?

我的系数非常小,我觉得这里做错了。

1 个答案:

答案 0 :(得分:1)

构建适当的管道,而不仅仅是具有某些R函数的技巧。

问题是您将缩放视为加载数据的一部分,而不是预测过程的一部分。

正确的协议如下:

  1. “了解”转换参数
  2. 转换培训数据
  3. 训练模型
  4. 转换新数据
  5. 预测值
  6. 对预测值进行逆变换

在交叉验证期间,这些需要针对每一折单独运行,否则您可能会高估(过度拟合)质量。

标准化是线性变换,因此求反函数很简单。