如何比较不同线性回归模型的有效性

时间:2019-05-29 19:38:35

标签: pandas scikit-learn linear-regression

我有一个数据框,其中包含目标列与其他列之间的三个或多或少重要关联(来自sklearn的LinarRegressionModel.coef_显示57、97和79)。而且我不知道选择哪种确切的模型:我应该仅使用最相关的列进行回归分析,还是应该对所有三个预测变量使用回归分析。有什么方法可以比较模型的有效性吗?抱歉,我是数据分析的新手,我无法使用Google的任何工具完成此任务

1 个答案:

答案 0 :(得分:2)

首先,您必须知道,当我们选择最佳模型以应用于新数据时,我们将选择最佳模型以适应out of sample数据,这可能是示例毕竟,您要预测新的概率或案例。根据您的情况,预测一个新的数字。

那么,我们该怎么做呢?好吧,最好是使用度量标准,它可以帮助我们选择哪种模型更适合我们的数据集。

要回归的指标太多:

  • MAE :平均绝对误差是误差绝对值的平均值。这是最简单的指标,因为它只是平均错误。
  • MSE :均方误差是均方误差的均值。它比平均绝对误差更受欢迎,因为重点是更大的误差。
  • RMSE :根表示平方误差是均方误差的平方根。这是最流行的评估指标之一,因为根表示平方误差可以用与响应向量或y单位相同的单位来解释,从而易于关联其信息。
  • RAE :相对绝对误差,也称为正方形的残差和,其中y bar是y的平均值,取总绝对误差并通过除以总绝对值对其进行归一化简单预测变量的误差。

您可以使用其中任何一个,但我强烈建议使用 MSE RMSE