我正在为逻辑回归准备数据,以尝试确定“事件”列中的哪些条目可能是“状态”类别字段的根本原因。为此,我正在尝试将分类列数据转换为二进制数据。
数据帧有约1亿行,因此效率很重要。
current dataframe:
instance status event
0 1 p a
1 1 p b
2 2 f a
3 2 f c
4 3 f a
5 3 f d
desired dataframe (where 'p' is '1' and 'f' is '0' in status column):
instance status a b c d
0 1 1 1 1 0 0
1 2 0 1 0 1 0
2 3 0 1 0 0 d
我已经尝试过使用get_dummies和pivot解决方案,但是无法创建所需的结构。示例代码如下。
0 1 p a
1 1 p b
2 2 f a
3 2 f c
4 3 f a
5 3 f d
desired dataframe (where 'p' is '1' and 'f' is '0' in status column):
instance status a b c d
0 1 1 1 1 0 0
1 2 0 1 0 1 0
2 3 0 1 0 0 d