我有一个数据框,其中包含2014年的317个股票代码系列的月度数据(317个代码×12个月= DF中的3,804个行)。我想将其转换为每日数据帧(317个代码x 365天= 115,705行)。因此,我认为我需要在每个月的每一天传播月度值时进行上采样或重新索引,但我无法使其正常工作。
数据框目前采用以下格式:
>>> df
month ticker b c
2014-1 AAU 10 .04 #different values every month for each ticker
2014-2 AAU 20 .03
2014-3 AAU 13 .06
.
2014-12 AAU 11 .03
.
.
.
2014-1 ZZY 11 .11
2014-2 ZZY 6 .03
.
2014-12 ZZY 17 .09
这就是我想要的:
>>> df
day ticker b c
2014-01-01 AAU 10 .04 #same values every day in month for each ticker
2014-01-02 AAU 10 .04
2014-01-03 AAU 10 .04
.
2014-01-31 AAU 10 .04
2014-02-01 AAU 20 .03
2014-02-02 AAU 20 .03
.
2014-02-28 AAU 20 .03
.
.
.
2014-12-30 ZZY 17 .09
2014-12-31 ZZY 17 .09
我已经尝试过在白天结合重新采样进行分组,但更新的数据框将从日期' 2014-01-13'开始。而不是1月1日,并以2014-12-01'结束。而不是12月31日。我还尝试更改月份值,例如,' 2014-1'至于2014-01-01'等,但重新采样的数据框仍然在2014-01-01'结束。必须有一个更简单的方法去做,所以我很感激任何帮助。我整天都在圈子里四处走动。
答案 0 :(得分:11)
首先,将月份 - 日期字符串解析为Pandas时间戳:
df['month'] = pd.to_datetime(df['month'], format='%Y-%m')
# month ticker b c
# 0 2014-01-01 AAU 10 0.04
# 1 2014-02-01 AAU 20 0.03
# 2 2014-03-01 AAU 13 0.06
# 3 2014-12-01 AAU 11 0.03
# 4 2014-01-01 ZZY 11 0.11
# 5 2014-02-01 ZZY 6 0.03
# 6 2014-12-01 ZZY 17 0.09
接下来,使用月份作为索引并将股票代码作为列级别来旋转DataFrame:
df = df.pivot(index='month', columns='ticker')
# b c
# ticker AAU ZZY AAU ZZY
# month
# 2014-01-01 10 11 0.04 0.11
# 2014-02-01 20 6 0.03 0.03
# 2014-03-01 13 NaN 0.06 NaN
# 2014-12-01 11 17 0.03 0.09
现在通过旋转,我们可以在以后更轻松地向前填充每个列。
现在找到开始和结束日期:
start_date = df.index.min() - pd.DateOffset(day=1)
end_date = df.index.max() + pd.DateOffset(day=31)
有趣的是,请注意,添加pd.DateOffset(day=31)
并不总是会导致日期在第31天结束。如果月份是2月,则添加pd.DateOffset(day=31)
会返回2月的最后一天:
In [130]: pd.Timestamp('2014-2-28') + pd.DateOffset(day=31)
Out[130]: Timestamp('2014-02-28 00:00:00')
这很好,因为这意味着添加pd.DateOffset(day=31)
将始终为我们提供该月的最后一个有效日期。
现在我们可以重新索引并转发填充DataFrame:
dates = pd.date_range(start_date, end_date, freq='D')
dates.name = 'date'
df = df.reindex(dates, method='ffill')
产生
In [160]: df.head()
Out[160]:
b c
ticker AAU ZZY AAU ZZY
date
2014-01-01 10 11 0.04 0.11
2014-01-02 10 11 0.04 0.11
2014-01-03 10 11 0.04 0.11
2014-01-04 10 11 0.04 0.11
2014-01-05 10 11 0.04 0.11
In [161]: df.tail()
Out[161]:
b c
ticker AAU ZZY AAU ZZY
date
2014-12-27 11 17 0.03 0.09
2014-12-28 11 17 0.03 0.09
2014-12-29 11 17 0.03 0.09
2014-12-30 11 17 0.03 0.09
2014-12-31 11 17 0.03 0.09
将股票代码移出列索引并返回列:
df = df.stack('ticker')
df = df.sortlevel(level=1)
df = df.reset_index()
所以把它们放在一起:
import pandas as pd
df = pd.read_table('data', sep='\s+')
df['month'] = pd.to_datetime(df['month'], format='%Y-%m')
df = df.pivot(index='month', columns='ticker')
start_date = df.index.min() - pd.DateOffset(day=1)
end_date = df.index.max() + pd.DateOffset(day=31)
dates = pd.date_range(start_date, end_date, freq='D')
dates.name = 'date'
df = df.reindex(dates, method='ffill')
df = df.stack('ticker')
df = df.sortlevel(level=1)
df = df.reset_index()
产量
In [163]: df.head()
Out[163]:
date ticker b c
0 2014-01-01 AAU 10 0.04
1 2014-01-02 AAU 10 0.04
2 2014-01-03 AAU 10 0.04
3 2014-01-04 AAU 10 0.04
4 2014-01-05 AAU 10 0.04
In [164]: df.tail()
Out[164]:
date ticker b c
450 2014-12-27 ZZY 17 0.09
451 2014-12-28 ZZY 17 0.09
452 2014-12-29 ZZY 17 0.09
453 2014-12-30 ZZY 17 0.09
454 2014-12-31 ZZY 17 0.09
答案 1 :(得分:2)
让我们做一个综合实验。假设我们有每日时间序列数据:
dates = pd.date_range(start, end, freq='D')
ts = pd.Series(data, index=dates)
通过平均一个月内的所有数据生成每月时间序列:
ts_mon = ts.resample('MS', how='mean')
现在尝试将此每月时间序列上采样回到每日时间序列,并在一个月内使用统一值。使用reindex从@unutbu借步的第一种方法很好:
ts_daily = ts_mon.reindex(dates, method='ffill')
Out:
2000-01-01 100.21
2000-01-02 100.21
...
2000-12-30 80.75
2000-12-31 80.75
使用resample 的第二种方法不起作用,因为它返回上个月的第一天:
ts_daily = ts_mon.resample('D').ffill()
Out:
2000-01-01 100.21
2000-01-02 100.21
...
2000-11-30 99.33
2000-12-01 80.75