如何避免在一列中多个类别的虚拟变量陷阱

时间:2018-09-25 04:58:23

标签: pandas scikit-learn categorical-data dummy-variable one-hot-encoding

我正在研究回归问题。我有一个分类列,它具有24个分类值。一键编码显示了太多的虚拟变量。有没有一种方法可以避免多个虚拟变量陷阱。请指导我 这是我的分类专栏文章 enter image description here

标签编码后

enter image description here

谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用此:

df['column'] = df['column'].astype('category').cat.codes

示例:

df = pd.DataFrame(['a','b','c','d','a','c','a','d'], columns=['column'])

输出:

   column
0       0
1       1
2       2
3       3
4       0
5       2
6       0
7       3