如何重塑数据成为python中的一个热门编码器?

时间:2017-06-04 14:11:51

标签: python data-cleaning one-hot-encoding

我是python中的菜鸟。我有一个关于如何将数据重新整形为python中的一个热编码器的问题。   userid中的数字可重复的数据如下:

userid  firstlogin
15605720    2017/4/20 0:00
24537631    2017/4/20 0:00
34012219    2017/4/20 0:00
……
32972232    2017/5/20 23:59
25698417    2017/5/20 23:59
31837935    2017/5/20 23:59
34092811    2017/5/20 23:59

我想把它转换成一个像这样的热编码器:

userid  2017/4/20   2017/4/21   ……
25181024    1   0
21631446    1   1
31784326    0   1
32258942    1   1
12840021    1   1
32709432    1   1
……

最重要的是,我应该学习哪种功能或方法来解决这个问题。非常感谢!

1 个答案:

答案 0 :(得分:0)

第一步是从firstlogin中提取日期部分。然后将其转换为对象,然后使用数据透视表创建虚拟变量。

oh['dt']=oh['firstlogin'].dt.date
oh['dummies'] = 1
oh.pivot(index='userid', columns='dt', values='dummies')

通常,您应该分享所取得的进步并描述瓶颈。没有这些,专家们将不会做出回应,这可能是迄今为止没有回应的原因。