应用错误收集

虚拟变量有2个类。它应该是单列还是多列？

时间：2017-10-19 18:48:14

标签： python machine-learning scikit-learn

我正在研究一个分类问题，使用Python中的逻辑回归模型（scikit learn）。我的一个特点是性别。在原始数据集中，此变量是一个字符串（男性，女性）。我使用了pandas中的get_dummies方法，它创建了2列，其中包含0,1个值。每个班级一个。

我的问题是，我应该使用2个不同的列，还是像男性（0,1）这样的单个列？

1 个答案:

答案 0 :(得分：2)

我个人希望将n - 1列用于包含n类别的字段。使用get_dummies方法时，这意味着将drop_first设置为True。

至于为什么我喜欢这样做;我的一位前教练在回答one hot encoding vs dummy encoding in sckikit learn时解释得非常好。基本上它归结为消除共线性。