前向选择和后向消除

时间:2020-03-24 13:47:48

标签: regression data-analysis

我正在分析一些数据。我有7个特征,并希望预测y。我进行了前向选择和后向消除,但是两个模型都产生非常糟糕的结果。我通过转换x变量(x ^ 2,x ^ 3、1 / x,x ^(1/2))生成了更多特征,以查看结果是否更好(总共28个变量) 运行代码后,无论做什么(调整显着性水平,更改消除标准),我什至都得到最差的结果,在前向选择中我总是得到截距作为回归函数,在后向消除中我总是得到所有变量(正态变量和变换变量)。

您知道为什么会这样吗?据我了解,在正向选择的情况下,该算法会检查每个变量的p值并添加最佳变量。因此,如果在第一种情况下(没有转换变量)x1在回归函数中,那么在第二种情况下(具有转换变量)x1也应该在回归函数中,而不仅仅是拦截函数。

谢谢。

1 个答案:

答案 0 :(得分:0)

您的受抚养人(y)correlated是否具有您的任何独立或生成的x功能? 您如何评估模型,R-squared是一种流行的指标。接近1的值可能表示模型更好,因为您选择的x变量擅长解释y的变化(预测)。更好的指标可能是您的Adjusted R Squared,因为如果使用更多的x变量,则该值将较低;如果使用更少的x变量,则该值将更大或更接近R Squared

某些代码或工具将有助于提供更具体的响应。

此外,您正在使用回归分析。有许多类型使用不同的假设。即便如此,有时回归分析可能并不是开发理想模型的选择算法