一段时间内的累计总和

时间:2019-03-13 15:56:15

标签: python pandas pandas-groupby

我的数据框具有以下结构:

 date_today = dt.datetime.now()
 size=20
 df = pd.DataFrame({"usd": pd.Series(np.random.randint(1,100,size))*10,
               "sent": dt.datetime.now(),
               "temp":np.random.randint(0,15, size=size)
              })
df.sent += df.temp.map(dt.timedelta)
df.temp = np.random.randint(10,25, size=size)
df["reminder"] = df.sent + df.temp.map(dt.timedelta)
df.temp = np.random.randint(1,65, size=size)
df["completed"] = df.reminder + df.temp.map(dt.timedelta)
df.loc[df['temp']%3 == 0, ['reminder']] = [""]
df.loc[df['temp']%2 == 0, ['completed']] = [""]
df=df[["usd", "sent", "reminder", "completed"]]

usd是我请求的钱(数字),其他列是日期时间(当我请求时,何时发送提醒以及何时收到钱;最后两个可为空)。 我还创建了以下每个月的季度列表:

date_index = []
previous_date=""
for m in range(0,14):
    month = (m%12)+1
    year = m//12
    current_date = dt.date(2019+year, month, 1)
    if previous_date:
        timedelta = current_date-previous_date
        date_index.append(previous_date+1*timedelta/4)
        date_index.append(previous_date+2*timedelta/4)
        date_index.append(previous_date+3*timedelta/4)
    date_index.append(current_date)
    previous_date = current_date

我想获得一个具有以下结构的数据框:

df_result = pd.DataFrame(columns=["date","sent_amount","reminder_amount","completed_amount"])

其中,df_result.date列是从上一个点开始的date_index序列,send_amount是记录的df.amount列的总和,其中df.sent列是

1 个答案:

答案 0 :(得分:2)

您可以melt数据框,cut将日期划分为date_index的日期范围,然后按变量(已完成/提醒/发送)+日期{{1} }累积sum的金额,然后将其拆散成列,然后usd将其累积起来:

cumsum

输出:

x = df.melt('usd', value_name='date')
x['date'] = pd.cut(x['date'], pd.to_datetime(date_index)).apply(lambda x: x.right)
x['variable'] += '_amount'

df_result = x.dropna().groupby(['variable', 'date'])['usd'].sum().unstack(0, 0).sort_index().cumsum()

print(df_result)