应用错误收集

我有一个包含40个变量的数据框。这40个变量可以分为10个变量的四个子集，我们将它们分别称为A，B，C和D。我有兴趣为某些因变量y找到线性和逻辑回归的变量的最佳组合。

现在，我已经使用“ leaps”库中的“ regsubsets”和“ bestglm”库中的“ bestglm”进行了逐步回归，并获得了一些结果。线性和逻辑回归的最佳模型相同。

从理论上讲，我的最优模型包含每个子集的变量是合乎逻辑的，因为子集内可能存在很强的相关性，而子集之间的相关性相对较小。然而，这种情况并非如此。

由于多重共线性和小样本量可能存在一些问题，因此我想尝试自己的逐步回归的受限版本。更具体地说，我想尝试逐步回归的附加限制，即选择的“最佳”（最佳给定限制）模型必须至少包含变量A，B，C和D的每个子集中的一个变量。好的，这也是变量的最大数量，即我想找到一种方法，用除排除截距外的4个变量来找到“最优”模型，因为附加的限制是每个变量子集中都存在一个变量。从线性回归模型开始就可以了，尽管最好也可以进行逻辑回归。

是否有允许这些限制的软件包和/或没有人知道这样做的方法？我知道逐步回归用于变量选择和其他问题的许多问题，我仍然想继续前进。如果您有其他选择最佳模型的方式，也可以考虑这些限制条件，尽管我更喜欢逐步限制条件下的逐步回归。

逐步回归，限制了来自变量子集的变量数量

0 个答案: