一种在熊猫中具有参考值的热编码

时间:2018-10-15 21:41:38

标签: python pandas scikit-learn sklearn-pandas one-hot-encoding

我正在尝试通过操作从一个组中创建一个热编码功能。

下表是原始表上的grupby操作的结果。 看起来像这样:

user_id    event    time_duration
0          A        2
0          B        4
0          C        3
1          B        5
1          C        3
2          D        1

现在,我正在尝试通过一键编码事件创建列,但是我想基于持续时间来代替二进制标记,而不是二进制标记。

结果应该是这样的:

user_id    event_A    event_B    event_C    event_D
0          2          4          3          0
1          0          5          3          0
2          0          0          0          1

现在,我只是通过手动在pandas中创建列并对所有组合进行for-loop(循环)填充来填充矩阵。喜欢:

df['event_A']=0
...
df['event_D']=0

并一一填充。

希望有一种精美的熊猫(+ sklearn?)方法。

0 个答案:

没有答案