教授希望我们对数据集进行约10倍交叉验证,以获取最低的RMSE,并使用该系数来制作一个函数,该函数接受参数并预测并返回“健身因子”得分,范围在25之间-75。
他鼓励我们尝试转换数据,所以我做到了。我对整个数据集使用scale()对其进行标准化,然后进行回归和10倍交叉验证。然后,我找到了我想要的模型,并复制了系数。问题是,当我将非标准参数放入y时,我的函数预测将变得遥遥无期。
我是否通过将数据标准化为平均值0和sd 1来完全解决这个问题?如果我搞砸了,有什么办法可以消除这种混乱吗?
我的系数非常小,我觉得这里做错了。
答案 0 :(得分:1)
构建适当的管道,而不仅仅是具有某些R函数的技巧。
问题是您将缩放视为加载数据的一部分,而不是预测过程的一部分。
正确的协议如下:
在交叉验证期间,这些需要针对每一折单独运行,否则您可能会高估(过度拟合)质量。
标准化是线性变换,因此求反函数很简单。