将具有分类数据的序列转换为二进制列值以进行逻辑回归

时间:2019-01-08 20:12:03

标签: python pandas logistic-regression

我正在为逻辑回归准备数据,以尝试确定“事件”列中的哪些条目可能是“状态”类别字段的根本原因。为此,我正在尝试将分类列数据转换为二进制数据。

数据帧有约1亿行,因此效率很重要。


    current dataframe:  
      instance status  event

0        1      p      a    
1        1      p      b
2        2      f      a
3        2      f      c
4        3      f      a
5        3      f      d

desired dataframe (where 'p' is '1' and 'f' is '0' in status column):  
  instance status     a b c d
0        1      1     1 1 0 0  
1        2      0     1 0 1 0  
2        3      0     1 0 0 d

我已经尝试过使用get_dummies和pivot解决方案,但是无法创建所需的结构。示例代码如下。

0        1      p      a    
1        1      p      b
2        2      f      a
3        2      f      c
4        3      f      a
5        3      f      d

desired dataframe (where 'p' is '1' and 'f' is '0' in status column):  
  instance status     a b c d
0        1      1     1 1 0 0  
1        2      0     1 0 1 0  
2        3      0     1 0 0 d

0 个答案:

没有答案