我有数据集,其中包含可以带纽约,加利福尼亚和佛罗里达州的分类属性状态。
答案 0 :(得分:1)
这并不总是必要的,但是想法是如果分类属性覆盖所有空间(即你的虚拟变量代表属性的所有可能值),那么最后一个虚拟变量可以由其他N完美预测。 -1个假人:
last_dummy = 1 if all sum(dummies[:N-1]) == 0 else 0
这引入了虚拟变量之间的重共线性(这在线性/逻辑回归中是非常不受欢迎的事情),这就是为什么它被称为虚拟变量陷阱。
通常,解决这个问题的方法是只删除一个虚拟列(任何一个都可以,它不一定是最后一个)。这消除了共线性的来源,并且由于无论如何都可以通过其余部分预测虚拟,因此原始数据集中根本不会丢失信息。
答案 1 :(得分:0)
由于拦截,你总是需要为每个级别删除一个Dummy变量 假设你有一个星期几的7个虚拟变量 该参考文献将在星期一与其他参考文献进行比较
如果删除拦截,则可以添加星期一。但是只有在非常具体的情况下才能删除拦截