虚拟变量有2个类。它应该是单列还是多列?

时间:2017-10-19 18:48:14

标签: python machine-learning scikit-learn

我正在研究一个分类问题,使用Python中的逻辑回归模型(scikit learn)。我的一个特点是性别。在原始数据集中,此变量是一个字符串(男性,女性)。我使用了pandas中的get_dummies方法,它创建了2列,其中包含0,1个值。每个班级一个。

我的问题是,我应该使用2个不同的列,还是像男性(0,1)这样的单个列?

1 个答案:

答案 0 :(得分:2)

我个人希望将n - 1列用于包含n类别的字段。使用get_dummies方法时,这意味着将drop_first设置为True。

至于为什么我喜欢这样做;我的一位前教练在回答one hot encoding vs dummy encoding in sckikit learn时解释得非常好。基本上它归结为消除共线性。