二进制分类变量的一键编码

时间:2019-02-27 01:57:45

标签: machine-learning data-processing one-hot-encoding data-munging

我正在尝试对包含两个值Male和Female的性别特征进行编码。我从主要功能is_male和is_female创建了两个一次性功能,其中包含布尔值。但是在应用模型时,我意识到它们是相互补充的。这是否会影响模型性能,因为它们似乎相互关联?

1 个答案:

答案 0 :(得分:0)

单热编码(为列的每个值创建单独的列)不应与二进制值变量(在您的情况下为MALE-FEMALE)一起使用。

这样做会导致虚拟变量陷阱