应用错误收集

我的预测矩阵为10000 X 3000（10000个样本和3000个特征）。我将数据分为训练和测试。我应用了PCA来减少预测矩阵的维数（对于95％的解释方差），这将特征减少到仅28个。然后我应用了线性回归并计算了相关系数和RMSE。

我使用了另一个预测变量矩阵10000 X 3500（现在有更多功能，更多预测变量），并且执行与上述相同的操作。当我比较相关系数和RMSE时，我发现后者（使用更多的预测变量）具有较低的相关性和较高的RMSE。我在几个案例中对此进行了验证。

我想知道为什么添加更多的预测变量会降低模型的准确性。更多的预测变量是否应该增加模型的准确性？还是过度拟合的问题？