我正在尝试针对数据框中日期缺少日期列更新数据框的ID
Date ID
0 2018-01-01 45.0-A
1 2018-01-02 45.0-A
5 2018-01-06 45.0-A
6 2018-01-07 45.0-A
12 2018-01-13 45.0-A
13 2018-01-14 45.0-A
period = 2
如果数据帧中超过period (period =2 )
个days missing
中指定的ID应该用额外的编号进行更新,则我用时差解决了这个问题并遍历数据帧,这会花费更多时间。有人可以建议我实现这一目标的最有效方法吗?
T_diff = data.Date.diff()
slic = [data.index[0]] + T_diff[T_diff.dt.days>period].index.tolist() + [data.index[-1]]
li = []
for i in range(len(slic)-1):
temp_df = data.loc[slic[i]:slic[i+1]].copy()
temp_df['ID'] = temp_df['ID'] + '_{}'.format(i)
li.append(temp_df)
pd.concat(li,axis=0)
Date ID
0 2018-01-01 45.0-A_0
1 2018-01-02 45.0-A_0
5 2018-01-06 45.0-A_1
6 2018-01-07 45.0-A_1
12 2018-01-13 45.0-A_2
13 2018-01-14 45.0-A_2
答案 0 :(得分:5)
可以使用diff()和cumsum()在一行中完成
df['Date'] = pd.to_datetime(df['Date'])
df['ID'] += '_' + (df['Date'].diff() > pd.Timedelta('2D')).cumsum().astype(str)
#output
# Date ID
#0 2018-01-01 45.0-A_0
#1 2018-01-02 45.0-A_0
#5 2018-01-06 45.0-A_1
#6 2018-01-07 45.0-A_1
#12 2018-01-13 45.0-A_2
#13 2018-01-14 45.0-A_2