我正在处理大量的出租车旅行数据。我正在计算每个司机在每个小时内接多少乘客。原始数据集具有{*}
格式的pickup_time
,因此我使用2013-08-15 00:00:00
提取小时,并使用hour()
来合计编号。的乘客。
现在数据框看起来像这样:
sum()
但是,我希望每个hack_license hour passengers
2013040171 22 9
2013040171 23 6
2013040171 24 15
...
都有24行,以指示在某些小时内他们没有完成任何行程。就像这样:
hack_license