关于常数变量和逻辑回归的几个问题 -
假设我有一个连续变量,但在整个数据集中只有一个值。我知道我应该理想地消除变量,因为它没有带来任何预测价值。而不是为每个特征手动执行此操作,Logistic回归是否会自动使这些变量的系数为0?
如果我在具有L1正则化的Logistic回归中使用这样的变量(只有一个值),正则化会强制系数为0吗?
在类似的行上,如果我有一个分类变量,我有3个级别 - 第一级跨度表示60%的数据集,第二级跨越35%,第3级表示5%),我将它分成训练和测试,第三级很可能不会在测试集中结束,这导致我们有一个变量,在测试集中有一个值而在训练集中有一个值。我该如何处理这种情况?正规化会自动处理这样的事情吗?
ND
答案 0 :(得分:0)
关于问题3)
如果您想确保列车和测试集都包含来自每个分类变量的样本,您可以简单地将每个子组划分为测试和训练集,然后再将它们组合起来。
关于问题1)和2)
方差为零的变量的系数应该为零,是的。但是,这样的系数是否自动"将被设置为零或从回归中排除取决于实现。
如果您自己实施逻辑回归,可以发布代码,我们可以专门讨论。
我建议您找一个已实现的逻辑回归版本,并使用玩具数据对其进行测试。然后你将得到你的答案,无论系数是否会被设置为零(我假设)。