如何找到特定变量的最高R平方值(在python中)?

时间:2018-06-05 18:08:07

标签: python-3.x statistics data-science linearmodels

在线性模型中,y = a_0 +(a_1×x_1)+(a_2×x_2)+(a_3×x_i)+ ε,i∈[3,4,...,100]的值是什么导致R-Squared最高的模型?

鉴于CSV文件包含一个依赖变量和100个独立变量。

1 个答案:

答案 0 :(得分:0)

这个问题没有多大意义。

让我们来看看coefficient of determination的定义(即“R平方”):

R^2 = 1 - sum(e_i) / ((n - 1) * s^2)

其中sum(e_i)是残差平方和,s^2是样本方差。

添加越来越多的预测变量可能会减少残差平方和,但由于过度拟合而导致预测性能较差。

因此,这里的关键问题是:哪些特征(变量)对于具有强预测性能的最佳模型非常重要。

这个问题将远远超出SO(或任何其他论坛),我推荐一本关于统计建模的(任何)教科书。