使用OneHot编码器将一列拆分为四列

时间:2016-03-21 01:12:35

标签: python dataframe one-hot-encoding

在Python中,假设我有一个名为size的数据框列,如下所示:

E 
G 
F  
D 
F
E...

字母D到G表示不同的尺寸,例如,从小到大。我能做的就是用数字表示它们,如下:

2
4
3
1
3
2...

但是,由于这不是连续数据,这可能会导致我将要做的其他分析的未来问题。因此,我的另一个想法是将其拆分为4列,其中大小的实例为1,否则为0.它应该如下所示:

D E F G

0 1 0 0
0 0 0 1
0 0 1 0
1 0 0 0
0 0 1 0 
0 1 0 0

我在Python中听说过一种名为OneHotEncoder的东西,它对这些场景非常有用。我将如何有效地使用它来解决这个问题,或者,我可以采取哪些其他方式来解决这个问题?

0 个答案:

没有答案