我在天蓝色机器学习中使用线性回归并评估模型。
我仍然有点不确定评估的各种指标是什么意思和显示,所以如果我不正确,我会感激一些纠正。
答案 0 :(得分:1)
在大多数情况下,你几乎都是正确的。为了确保我们用相同的术语,一点点背景说话:
线性回归使用某些结果变量y
和自变量x1, x2, ..
的数据,并尝试找到最佳预测x1, x2, ..
的{{1}}的线性组合。一旦建立了这种“最佳线性组合”,您就可以通过多种方式评估拟合的质量(即模型的质量)。您提到的六点都是回归方程质量的关键指标。
运行回归可以为您提供多种“成分”。例如,每个观察结果都会得到结果变量的预测值。 y
的观测值与预测值之间的差异称为残差或误差。残差可以是负数(如果y
被高估)和正数(如果y
被低估)。残差越接近零越好。但是,什么是“接近”?您提供的指标应该能够深入了解这一点。
相对绝对错误:绝对错误,作为结果变量y
实际值的一小部分。在您的情况下,预测平均比y
的实际值高出/低75%。
相对平方误差:平方误差(y
)作为实际值的一部分。
residual^2
时自变量的解释力。实际上,在您的情况下,自变量可以模拟y
中38,15%的变化。此外,如果您只有一个自变量,则此系数等于平方相关系数。 均方根误差和确定系数是几乎所有情况下最重要的指标。说实话,我从未真正看到其他指标被报道。