线性回归模型:为什么我的考试成绩比我的训练成绩高?

时间:2018-10-16 03:00:04

标签: python machine-learning regression linear-regression

我正在使用sklearn运行LinearRegression()模型。该数据集包含车辆的特征,例如发动机尺寸,气缸,mpg,燃料类型和二氧化碳排放量。目标变量是二氧化碳排放量。我将数据分割为70/30。当我计算训练集和测试集的分数时,训练集分数为0.992,测试集分数为0.993。 (两种方法的准确性都很高,这归因于燃料类型使用了虚拟变量。我重新运行了没有虚拟变量的模型,并且火车的精度下降到0.867,测试的准确性下降到0.870。同样,测试得分很高更高)。

我已经在网上四处张望,还没有发现任何有用的见解。我见过其他人说这可能是由于数据集很小,但是该数据集有超过18,000个观测值(火车为13090,测试为5611)。由于培训和考试分数几乎相同,这是一个问题吗?是什么导致考试成绩更高?

可以在here中找到此ML项目的数据。我正在使用2000-2018年的燃油消耗。

0 个答案:

没有答案