我的预测矩阵为10000 X 3000(10000个样本和3000个特征)。我将数据分为训练和测试。我应用了PCA来减少预测矩阵的维数(对于95%的解释方差),这将特征减少到仅28个。然后我应用了线性回归并计算了相关系数和RMSE。
我使用了另一个预测变量矩阵10000 X 3500(现在有更多功能,更多预测变量),并且执行与上述相同的操作。当我比较相关系数和RMSE时,我发现后者(使用更多的预测变量)具有较低的相关性和较高的RMSE。我在几个案例中对此进行了验证。
我想知道为什么添加更多的预测变量会降低模型的准确性。更多的预测变量是否应该增加模型的准确性?还是过度拟合的问题?