逐步回归,限制了来自变量子集的变量数量

时间:2019-02-22 01:53:12

标签: r linear-regression logistic-regression feature-selection restriction

我有一个包含40个变量的数据框。这40个变量可以分为10个变量的四个子集,我们将它们分别称为A,B,C和D。我有兴趣为某些因变量y找到线性和逻辑回归的变量的最佳组合。

现在,我已经使用“ leaps”库中的“ regsubsets”和“ bestglm”库中的“ bestglm”进行了逐步回归,并获得了一些结果。线性和逻辑回归的最佳模型相同。

从理论上讲,我的最优模型包含每个子集的变量是合乎逻辑的,因为子集内可能存在很强的相关性,而子集之间的相关性相对较小。然而,这种情况并非如此。

由于多重共线性和小样本量可能存在一些问题,因此我想尝试自己的逐步回归的受限版本。更具体地说,我想尝试逐步回归的附加限制,即选择的“最佳”(最佳给定限制)模型必须至少包含变量A,B,C和D的每个子集中的一个变量。好的,这也是变量的最大数量,即我想找到一种方法,用除排除截距外的4个变量来找到“最优”模型,因为附加的限制是每个变量子集中都存在一个变量。从线性回归模型开始就可以了,尽管最好也可以进行逻辑回归。

是否有允许这些限制的软件包和/或没有人知道这样做的方法?我知道逐步回归用于变量选择和其他问题的许多问题,我仍然想继续前进。如果您有其他选择最佳模型的方式,也可以考虑这些限制条件,尽管我更喜欢逐步限制条件下的逐步回归。

0 个答案:

没有答案