评估线性回归(在微软机器学习中)

时间:2017-04-07 12:47:29

标签: r machine-learning statistics azure-machine-learning-studio

我在天蓝色机器学习中使用线性回归并评估模型。

我仍然有点不确定评估的各种指标是什么意思和显示,所以如果我不正确,我会感激一些纠正。

  1. 平均绝对误差残差平均值(误差)。
  2. 均方根误差残差的标准偏差。有了这个,我可以看到我的绝对误差与平均值/中位数有多远。
  3. 相对绝对误差:显示相对误差与绝对误差之间的百分比差异的百分比值。较低的值更好,表明差异较小。
  4. 相对平方误差:相对于绝对平方的误差平方。不确定这给了我相对绝对误差的原因。
  5. 确定系数:输入之间的相关性指示。 +1或-1表示完全相关,0表示无相关。
  6. 直方图显示各种误差幅度的频率。这显示了很多小错误。频率随着误差值的增加而减小,表明当与上述不良指标一起使用时,可能会有一些sku或异常值对模型产生很大影响,使其不太准确。
  7. 这些定义和假设是否正确?

    enter image description here

1 个答案:

答案 0 :(得分:1)

在大多数情况下,你几乎都是正确的。为了确保我们用相同的术语,一点点背景说话:

线性回归使用某些结果变量y和自变量x1, x2, ..的数据,并尝试找到最佳预测x1, x2, ..的{​​{1}}的线性组合。一旦建立了这种“最佳线性组合”,您就可以通过多种方式评估拟合的质量(即模型的质量)。您提到的六点都是回归方程质量的关键指标。

运行回归可以为您提供多种“成分”。例如,每个观察结果都会得到结果变量的预测值y的观测值与预测值之间的差异称为残差或误差。残差可以是负数(如果y被高估)和正数(如果y被低估)。残差越接近零越好。但是,什么是“接近”?您提供的指标应该能够深入了解这一点。

  • 平均绝对误差:获取残差的绝对值并取其平均值。
  • 均方根误差:是残差的标准差。这将有助于您了解传播对残差的影响程度。残差是平方的,因此,高残差将计入超过小残差。低RMSE是好的。
  • 相对绝对错误:绝对错误,作为结果变量y实际值的一小部分。在您的情况下,预测平均比y的实际值高出/低75%。

  • 相对平方误差:平方误差(y)作为实际值的一部分。

  • 确定系数:几乎正确。它的范围在0到1之间,可以解释为解释residual^2时自变量的解释力。实际上,在您的情况下,自变量可以模拟y中38,15%的变化。此外,如果您只有一个自变量,则此系数等于平方相关系数。

均方根误差和确定系数是几乎所有情况下最重要的指标。说实话,我从未真正看到其他指标被报道。