线性回归中的虚拟变量陷阱

时间:2018-03-10 15:06:54

标签: machine-learning linear-regression dummy-variable

我有数据集,其中包含可以带纽约,加利福尼亚和佛罗里达州的分类属性状态。

  • 在虚拟变量中对这些值进行编码后,为什么需要删除 一个变量?
  • 有人可以解释一下什么是虚拟变量陷阱 线性回归的情况。
  • 为什么我们需要删除1个变量 走出这种情况?

2 个答案:

答案 0 :(得分:1)

这并不总是必要的,但是想法是如果分类属性覆盖所有空间(即你的虚拟变量代表属性的所有可能值),那么最后一个虚拟变量可以由其他N完美预测。 -1个假人:

last_dummy = 1 if all sum(dummies[:N-1]) == 0 else 0

这引入了虚拟变量之间的重共线性(这在线性/逻辑回归中是非常不受欢迎的事情),这就是为什么它被称为虚拟变量陷阱

通常,解决这个问题的方法是只删除一个虚拟列(任何一个都可以,它不一定是最后一个)。这消除了共线性的来源,并且由于无论如何都可以通过其余部分预测虚拟,因此原始数据集中根本不会丢失信息。

答案 1 :(得分:0)

由于拦截,你总是需要为每个级别删除一个Dummy变量 假设你有一个星期几的7个虚拟变量 该参考文献将在星期一与其他参考文献进行比较

如果删除拦截,则可以添加星期一。但是只有在非常具体的情况下才能删除拦截