解释归一化

时间:2019-09-24 00:15:57

标签: statistics linear-regression normalization scaling

1。)在线性回归中,将因变量归一化(y-min / range)使其范围在0-1之间时,模型的输出可以解释为概率吗?

例如,如果我的因变量(y)被归一化,并且我拟合了具有数字特征/预测变量的线性回归模型,则预测(y_hat)的范围也将为0-1。我的问题是我可以将此预测解释为概率吗?含义> = 0.5 =成功,<0.5 =失败。

2。)另一种情况:如果在线性回归模型中将我的因变量和自变量都标准化了((value-min)/ range),该如何解释模型的输出?

3。)我开发了一个线性回归模型,该模型具有归一化(y-min /范围)因变量和标准化(x-均值/ SD)特征/协变量。当我在不用于训练模型的新数据集中测试该模型时,是否还需要标准化测试数据中的特征/协变量?

另外,我该如何解释模型输出?

4。)如果因变量(Y)和自变量(X)都是标准化的(x-mean / SD),该模型如何解释?

1 个答案:

答案 0 :(得分:0)

  1. 大概不是,普通/ OLS线性回归从-Inf到+ Inf,因此您想使用参数化为带有适当“族”的广义线性回归,该族提供+ -Inf之间的“链接”线性回归的世界和您的[0,1]概率空间。 R在这种情况下提供了“准二项式”族,并为此使用了logit函数。

  2. 取决于...您为什么要“标准化”?不需要像使用神经网络那样。有关模型的所有内容都设计得很好,因此易于优化。 NN往往不是凸面的,因此难以优化,因此进行了归一化/标准化以帮助解决问题

  3. 为了使预测有意义,您可能需要跟踪与原始/训练数据一起使用的变换(即函数和参数),并将其应用于测试数据。如果使用测试数据集中的最小值/范围进行标准化,则可能做错了事。就是说,在某些情况下反之亦然,我鼓励您通过数学研究看看它如何应用于您的情况

  4. 与上面相同,只是稍微移动了一点。系数现在仅是平均值的标准差,但使用辅助解释的单位可能再次容易

https://stats.stackexchange.com对于这些问题可能是一个更好的地方...