我有以下DataFrame:
df = pd.DataFrame({
'Buyer': 'Carl Mark Carl Joe Joe Carl'.split(),
'Quantity': [1,3,5,8,9,3],
'Date' : [
DT.datetime(2013,9,1,13,0),
DT.datetime(2013,9,1,13,5),
DT.datetime(2013,10,1,20,0),
DT.datetime(2013,10,3,10,0),
DT.datetime(2013,12,2,12,0),
DT.datetime(2013,12,2,14,0),
]})
df = df.set_index('Date', drop=False)
使用以下功能:
def f(frame):
cum_sum = 0
if (len(frame) > 0):
cum_sum = frame.Quantity.sum()
frame['cum_sum'] = cum_sum
return frame
x1 = df.groupby(pd.TimeGrouper('20M')).apply(f)
我得到了输出
Buyer Date Quantity cum_sum
Date
2013-09-01 13:00:00 Carl 2013-09-01 13:00:00 1 4
2013-09-01 13:05:00 Mark 2013-09-01 13:05:00 3 4
2013-10-01 20:00:00 Carl 2013-10-01 20:00:00 5 25
2013-10-03 10:00:00 Joe 2013-10-03 10:00:00 8 25
2013-12-02 12:00:00 Joe 2013-12-02 12:00:00 9 25
2013-12-02 14:00:00 Carl 2013-12-02 14:00:00 3 25
前两行的cum_sum不是25,这怎么可能?如果我在TimeGrouper函数中使用'A'作为年度量词,前两行的cum_sum是否正确计算?
谢谢
安迪
答案 0 :(得分:1)
你需要将closed='left'
添加到时间分组器,否则它将不包括第一个bin(因此它在不同的组中),
和btw ...函数中的拼写错误:cum_sum
而不是sum_sum
(Pdb) df.groupby(TimeGrouper('20M',closed='left')).apply(f)
Buyer Date Quantity cum_sum
Date
2013-09-01 13:00:00 Carl 2013-09-01 13:00:00 1 29
2013-09-01 13:05:00 Mark 2013-09-01 13:05:00 3 29
2013-10-01 20:00:00 Carl 2013-10-01 20:00:00 5 29
2013-10-03 10:00:00 Joe 2013-10-03 10:00:00 8 29
2013-12-02 12:00:00 Joe 2013-12-02 12:00:00 9 29
2013-12-02 14:00:00 Carl 2013-12-02 14:00:00 3 29