应用错误收集

时间：2016-03-14 20:25:06

标签： linear-regression logistic-regression feature-extraction feature-selection categorical-data

关于常数变量和逻辑回归的几个问题 -

假设我有一个连续变量，但在整个数据集中只有一个值。我知道我应该理想地消除变量，因为它没有带来任何预测价值。而不是为每个特征手动执行此操作，Logistic回归是否会自动使这些变量的系数为0？
如果我在具有L1正则化的Logistic回归中使用这样的变量（只有一个值），正则化会强制系数为0吗？
在类似的行上，如果我有一个分类变量，我有3个级别 - 第一级跨度表示60％的数据集，第二级跨越35％，第3级表示5％），我将它分成训练和测试，第三级很可能不会在测试集中结束，这导致我们有一个变量，在测试集中有一个值而在训练集中有一个值。我该如何处理这种情况？正规化会自动处理这样的事情吗？

答案 0 :(得分：0)

关于问题3）

如果您想确保列车和测试集都包含来自每个分类变量的样本，您可以简单地将每个子组划分为测试和训练集，然后再将它们组合起来。

关于问题1）和2）

方差为零的变量的系数应该为零，是的。但是，这样的系数是否自动＆＃34;将被设置为零或从回归中排除取决于实现。

如果您自己实施逻辑回归，可以发布代码，我们可以专门讨论。

我建议您找一个已实现的逻辑回归版本，并使用玩具数据对其进行测试。然后你将得到你的答案，无论系数是否会被设置为零（我假设）。