我想分析和解决非常著名的项目“红酒质量分析”中的一些问题,该项目可在以下链接中免费获得: https://www.kaggle.com/piyushgoyal443/red-wine-analysis/data
问题在于找到红酒质量的两个最重要的预测因素。
我已经开始在R的olsrr包中使用ols_all_step_possible()函数。在结果部分中,它给出了预测变量与模型及其rsquare,Adj.rsquare,AIC,fpe等的每种组合的数据框。 ......
从结果中我发现,酒精和挥发性酸度是基于高Adj.rsquare和低(AIC,fpe)的两个最佳预测指标:
结果
我的问题是,查看模型的rsquare和AIC是否足以说明那些变量(包含在模型中,并且p值很重要)是否是重要的预测变量?或者,我们必须将其分为训练测试集并查看测试MAPE,然后确定它是否是重要的预测因子?
答案 0 :(得分:0)
我相信您正在询问找出最佳预测变量的方法。您可以使用各种方法来找出最佳预测器。为了找到预测变量,您应该使用特征选择。您可以点击链接:
https://machinelearningmastery.com/feature-selection-with-the-caret-r-package/
还有另一件事是R平方,Adj R平方是定义模型质量的参数,而不是单个预测变量。是的,您可以在P值的基础上看到它。 AIC也是如此。这些对于在两个模型之间进行选择最有用。 r平方较高的模型要好于较小的平方。