在线性模型中,y = a_0 +(a_1×x_1)+(a_2×x_2)+(a_3×x_i)+ ε,i∈[3,4,...,100]的值是什么导致R-Squared最高的模型?
鉴于CSV文件包含一个依赖变量和100个独立变量。
答案 0 :(得分:0)
这个问题没有多大意义。
让我们来看看coefficient of determination的定义(即“R平方”):
R^2 = 1 - sum(e_i) / ((n - 1) * s^2)
其中sum(e_i)
是残差平方和,s^2
是样本方差。
添加越来越多的预测变量可能会减少残差平方和,但由于过度拟合而导致预测性能较差。
因此,这里的关键问题是:哪些特征(变量)对于具有强预测性能的最佳模型非常重要。
这个问题将远远超出SO(或任何其他论坛),我推荐一本关于统计建模的(任何)教科书。