我正在研究一个分类问题,使用Python中的逻辑回归模型(scikit learn)。我的一个特点是性别。在原始数据集中,此变量是一个字符串(男性,女性)。我使用了pandas中的get_dummies方法,它创建了2列,其中包含0,1个值。每个班级一个。
我的问题是,我应该使用2个不同的列,还是像男性(0,1)这样的单个列?
答案 0 :(得分:2)
我个人希望将n - 1
列用于包含n
类别的字段。使用get_dummies
方法时,这意味着将drop_first
设置为True。
至于为什么我喜欢这样做;我的一位前教练在回答one hot encoding vs dummy encoding in sckikit learn时解释得非常好。基本上它归结为消除共线性。