我有一个数据框,其中包含目标列与其他列之间的三个或多或少重要关联(来自sklearn的LinarRegressionModel.coef_显示57、97和79)。而且我不知道选择哪种确切的模型:我应该仅使用最相关的列进行回归分析,还是应该对所有三个预测变量使用回归分析。有什么方法可以比较模型的有效性吗?抱歉,我是数据分析的新手,我无法使用Google的任何工具完成此任务
答案 0 :(得分:2)
首先,您必须知道,当我们选择最佳模型以应用于新数据时,我们将选择最佳模型以适应out of sample
数据,这可能是示例毕竟,您要预测新的概率或案例。根据您的情况,预测一个新的数字。
那么,我们该怎么做呢?好吧,最好是使用度量标准,它可以帮助我们选择哪种模型更适合我们的数据集。
要回归的指标太多:
您可以使用其中任何一个,但我强烈建议使用 MSE 和 RMSE 。