我是python中的菜鸟。我有一个关于如何将数据重新整形为python中的一个热编码器的问题。 userid中的数字可重复的数据如下:
userid firstlogin
15605720 2017/4/20 0:00
24537631 2017/4/20 0:00
34012219 2017/4/20 0:00
……
32972232 2017/5/20 23:59
25698417 2017/5/20 23:59
31837935 2017/5/20 23:59
34092811 2017/5/20 23:59
我想把它转换成一个像这样的热编码器:
userid 2017/4/20 2017/4/21 ……
25181024 1 0
21631446 1 1
31784326 0 1
32258942 1 1
12840021 1 1
32709432 1 1
……
最重要的是,我应该学习哪种功能或方法来解决这个问题。非常感谢!
答案 0 :(得分:0)
第一步是从firstlogin中提取日期部分。然后将其转换为对象,然后使用数据透视表创建虚拟变量。
oh['dt']=oh['firstlogin'].dt.date
oh['dummies'] = 1
oh.pivot(index='userid', columns='dt', values='dummies')
通常,您应该分享所取得的进步并描述瓶颈。没有这些,专家们将不会做出回应,这可能是迄今为止没有回应的原因。