Question

我正在尝试将pandas df中的值归为非工作时间。具体来说，我每15分钟返回一次值。我可以使用以下方法做到这一点。但是我希望即使每15分钟一次的值都不会返回，df中也不会出现。对于这些段，我将生成一个ffill()，在此之前的值将分配给该段。

import pandas as pd

d = ({
    'Time' : ['0/1/1900 8:00:00','0/1/1900 9:59:00','0/1/1900 10:00:00','0/1/1900 12:29:00','0/1/1900 12:30:00','0/1/1900 13:00:00','0/1/1900 13:02:00','0/1/1900 13:15:00','0/1/1900 13:20:00','0/1/1900 18:10:00','0/1/1900 18:15:00','0/1/1900 18:20:00','0/1/1900 18:25:00','0/1/1900 18:45:00','0/1/1900 18:50:00','0/1/1900 19:05:00','0/1/1900 19:07:00','0/1/1900 21:57:00','0/1/1900 22:00:00','0/1/1900 22:30:00','0/1/1900 22:35:00','1/1/1900 3:00:00','1/1/1900 3:05:00','1/1/1900 3:20:00','1/1/1900 3:25:00'],                 
    'People' : [1,1,2,2,3,3,2,2,3,3,4,4,3,3,2,2,3,3,4,4,3,3,2,2,1],                      
     })

df = pd.DataFrame(data = d)

df['Time'] = ['/'.join([str(int(x.split('/')[0])+1)] + x.split('/')[1:]) for x in df['Time']]
df['Time'] = pd.to_datetime(df['Time'], format='%d/%m/%Y %H:%M:%S') 

df = df.groupby(df.Time.dt.floor('15T'))['People'].max()
print(df)

Time
1900-01-01 08:00:00    1
1900-01-01 09:45:00    1
1900-01-01 10:00:00    2
1900-01-01 12:15:00    2
1900-01-01 12:30:00    3
1900-01-01 13:00:00    3
1900-01-01 13:15:00    3
1900-01-01 18:00:00    3
1900-01-01 18:15:00    4
1900-01-01 18:45:00    3
1900-01-01 19:00:00    3
1900-01-01 21:45:00    3
1900-01-01 22:00:00    4
1900-01-01 22:30:00    4
1900-01-02 03:00:00    3
1900-01-02 03:15:00    2

该系列仅提供df中存在的组。是否有可能通过前一组的前向填充来确定每15分钟段的值。可以更改以下功能来为这些段分配值吗？

df = df.groupby(df.Time.dt.floor('H'))['People'].max()

Answer 1

您可以以15分钟的频率重新采样结果并向前填补空白：

df.set_index('Time').resample('15T').max().ffill().astype(int)

Answer 2

如果您想groupby，则需要Grouper

df.groupby(pd.Grouper(freq='15T',key='Time'))['People'].max().ffill()

Groupby在熊猫df中每15分钟进行一次值评估

2 个答案: