Question

在线性模型中，y = a_0 +（a_1×x_1）+（a_2×x_2）+（a_3×x_i）+ ε，i∈[3,4，...，100]的值是什么导致R-Squared最高的模型？

鉴于CSV文件包含一个依赖变量和100个独立变量。

Answer 1

这个问题没有多大意义。

让我们来看看coefficient of determination的定义（即“R平方”）：

R^2 = 1 - sum(e_i) / ((n - 1) * s^2)

其中sum(e_i)是残差平方和，s^2是样本方差。

添加越来越多的预测变量可能会减少残差平方和，但由于过度拟合而导致预测性能较差。

因此，这里的关键问题是：哪些特征（变量）对于具有强预测性能的最佳模型非常重要。

这个问题将远远超出SO（或任何其他论坛），我推荐一本关于统计建模的（任何）教科书。