关于机器学习中的虚拟变量

时间:2020-04-14 13:22:13

标签: machine-learning

假设我有两个分类变量,并且在构建模型之前需要对这些变量进行编码。现在,虚拟变量陷阱说,您不应该在模型中包括所有虚拟变量。我在这里很困惑。跳过一个虚拟变量还是每个分类变量仅跳过一个虚拟变量就足够了吗?

作为示例,假设我有2个类别变量 gender sex ,在对它们进行编码后,我将有4个新列。现在,我的问题是我需要删除性别中的一个性别中的一个,还是只是任何人中的一个

1 个答案:

答案 0 :(得分:0)

基于虚拟变量陷阱,您可以避免模型中的相关变量,例如:您的变量是性别,其值男性和女性。如果要转换为虚拟变量,则可能会有两列 gender_male gender_female 。这是窍门,现在您可以避开其中任一列。如果男性默认为1,女性默认为0。则高度相关。