r平方和调整后的r平方之间的差异,有人可以帮我找到相同的好来源吗?

时间:2019-07-17 17:16:54

标签: machine-learning statistics

我看了一些有关回归算法的视频,例如线性,多项式,决策树,随机森林。但是,当涉及到解释R平方和调整后的R平方时,当我解释添加更多变量如何影响我们的模型时,我不太理解这个主题。

我搜索了各种在线资源,但试图找到最简单的解释,以及这两者如何帮助我们决定使我们的模型更强大

1 个答案:

答案 0 :(得分:0)

这实际上不是熊猫或python问题,而是更多的统计问题。无论如何-这是一个简短的解释。

r p平方是指不考虑自变量数量而对特定模型的拟合优度。而调整后的r平方考虑了自变量的数量。

因此,如果您有回归方程,例如

y = mx + nx1 + ox2 + b

r平方将告诉您该方程式很好地描述了您的数据。如果添加更多自变量(p,q,r,s ...),则r平方值将提高,因为从本质上讲,您将更具体地定义样本数据。 (小心,这可能会导致过度拟合-也可以完美地描述训练数据,但不能正确预测新数据)。相反,使用调整后的R平方度量标准时要考虑到您添加了更多的自变量,并将针对添加的更多不适合样本数据的变量“惩罚”结果。这是一种测试变量的好方法,可以一次添加一个并检查adj-R2何时开始恶化,或者通过从所有变量开始并一次删除一个变量直到adj-R2没有改善来进行测试。

这是这两个指标的统计描述的explanation