我有一个熊猫数据框,如下所示:
df = pd.DataFrame({})
df['Date'] = pd.to_datetime(np.arange(0,11), unit='h', origin='2018-08-01 00:00:00')
Date
0 2018-08-01 00:00:00
1 2018-08-01 01:00:00
2 2018-08-01 02:00:00
3 2018-08-01 03:00:00
4 2018-08-01 04:00:00
5 2018-08-01 05:00:00
6 2018-08-01 06:00:00
7 2018-08-01 07:00:00
8 2018-08-01 08:00:00
9 2018-08-01 09:00:00
10 2018-08-01 10:00:00
我想创建一个新的“旅行”列,它是一个整数,告诉我它是哪个旅行。行程开始后4小时内的所有记录均应属于行程的一部分。结果必须如下所示:
Date Trip
0 2018-08-01 00:00:00 1
1 2018-08-01 01:00:00 1
2 2018-08-01 02:00:00 1
3 2018-08-01 03:00:00 1
4 2018-08-01 04:00:00 1
5 2018-08-01 05:00:00 2
6 2018-08-01 06:00:00 2
7 2018-08-01 07:00:00 2
8 2018-08-01 08:00:00 2
9 2018-08-01 09:00:00 2
10 2018-08-01 10:00:00 3
有什么想法吗?
答案 0 :(得分:1)
您可以使用这样的lambda:
df["Trip"] = df.apply(lambda x: (x["Date"].hour // 5) + 1, axis=1)
5是您要覆盖的小时数
+1
在这里是因为您要从旅程1开始
开始时间不同于00:00:00
origin = df["Date"][0].hour
df["Trip"] = df.apply(lambda x: ((x["Date"].hour - origin) // 5) + 1, axis=1)
其他获取方式:
df["Trip"] = df.apply(lambda x: ((x["Date"].hour - origin) // 4.0) + 1, axis=1)
如果需要,别忘了转换为
int
答案 1 :(得分:1)
您在这里。享受吧!
import pandas as pd
import numpy as np
df = pd.DataFrame({})
df['Date'] = pd.to_datetime(np.arange(0,11), unit='h', origin='2018-08-01 00:00:00')
def get_cum_time(x):
diff_time = x.Date - x.prev_date
return diff_time / np.timedelta64(1, 'h')
df['prev_date'] = df.Date.shift(1)
df['diff_time'] = df.apply(get_cum_time, axis=1)
df['cum_time'] = df.diff_time.cumsum()
df.cum_time.fillna(1.0, inplace=True)
def get_trip(x):
return x // 4 + 1
df['Trip'] = df.cum_time.apply(get_trip)
print(df)
输出:
Date prev_date diff_time cum_time Trip
0 2018-08-01 00:00:00 NaT NaN 1.0 1.0
1 2018-08-01 01:00:00 2018-08-01 00:00:00 1.0 1.0 1.0
2 2018-08-01 02:00:00 2018-08-01 01:00:00 1.0 2.0 1.0
3 2018-08-01 03:00:00 2018-08-01 02:00:00 1.0 3.0 1.0
4 2018-08-01 04:00:00 2018-08-01 03:00:00 1.0 4.0 2.0
5 2018-08-01 05:00:00 2018-08-01 04:00:00 1.0 5.0 2.0
6 2018-08-01 06:00:00 2018-08-01 05:00:00 1.0 6.0 2.0
7 2018-08-01 07:00:00 2018-08-01 06:00:00 1.0 7.0 2.0
8 2018-08-01 08:00:00 2018-08-01 07:00:00 1.0 8.0 3.0
9 2018-08-01 09:00:00 2018-08-01 08:00:00 1.0 9.0 3.0
10 2018-08-01 10:00:00 2018-08-01 09:00:00 1.0 10.0 3.0