应用错误收集

时间：2019-04-23 10:08:41

标签： r machine-learning regression supervised-learning

教授希望我们对数据集进行约10倍交叉验证，以获取最低的RMSE，并使用该系数来制作一个函数，该函数接受参数并预测并返回“健身因子”得分，范围在25之间-75。

他鼓励我们尝试转换数据，所以我做到了。我对整个数据集使用scale（）对其进行标准化，然后进行回归和10倍交叉验证。然后，我找到了我想要的模型，并复制了系数。问题是，当我将非标准参数放入y时，我的函数预测将变得遥遥无期。

我是否通过将数据标准化为平均值0和sd 1来完全解决这个问题？如果我搞砸了，有什么办法可以消除这种混乱吗？

我的系数非常小，我觉得这里做错了。

答案 0 :(得分：1)

构建适当的管道，而不仅仅是具有某些R函数的技巧。

问题是您将缩放视为加载数据的一部分，而不是预测过程的一部分。

正确的协议如下：

在交叉验证期间，这些需要针对每一折单独运行，否则您可能会高估（过度拟合）质量。

标准化是线性变换，因此求反函数很简单。