使用Groupby的自定义时间段

时间:2016-03-08 23:00:38

标签: python pandas pandas-groupby date-arithmetic

我有以下Pandas DataFrame:

import datetime as dt
import pandas as pd
import numpy as np

offset = 3 * pd.tseries.offsets.BMonthEnd()

bond_index_1 = pd.date_range('1/1/14', '1/1/18', freq=offset, name='date')
bond_1 = pd.DataFrame(data = np.random.uniform(0, 5, 16),
                      index= bond_index_1, columns=['cash_flow'])

bond_index_2 = pd.date_range('3/1/14', '3/1/21', freq=offset, name='date')
bond_2 = pd.DataFrame(data = 2*np.random.uniform(0, 10, 28),
                      index= bond_index_2, columns=['cash_flow'])

df_merged = pd.concat([bond_1, bond_2], keys=['Bond_1', 'Bond_2'])

如何以{strong>自定义范围获取cash_flow列中的值总和,从2014年6月30日开始,以6个月的间隔结束2016-12-31

因此,时间间隔看起来像2014-06-30,2015-12-31,2015-06-30,2015-12-31,2016-06-30,2016-12-31

它也会忽略'债券' MultiIndex中的名称索引。

我已尝试使用TimeGrouper但无法使其发挥作用,因为TimeGrouper从您的时间序列中最早的值开始并向前移动。

1 个答案:

答案 0 :(得分:2)

resample似乎是解决问题的简便方法之一。

print df_merged.reset_index().set_index('date').resample('6M', how='sum', closed='left', loffset='-1M')

产量,

            cash_flow
date                 
2014-06-30  16.058478
2014-12-31  24.282106
2015-06-30  32.777176
2015-12-31  33.661801
2016-06-30  26.779571
2016-12-31  17.435089
2017-06-30  30.914194
2017-12-31  20.117823
2018-06-30  29.505178
2018-12-31  17.245787
2019-06-30  22.975058
2019-12-31  17.742220
2020-06-30  11.646266
2020-12-31  20.077632