鉴于以下高频但稀疏的时间序列:
#Sparse Timeseries
dti1 = pd.date_range(start=datetime(2015,8,1,9,0,0),periods=10,freq='ms')
dti2 = pd.date_range(start=datetime(2015,8,1,9,0,10),periods=10,freq='ms')
dti = dti1 + dti2
ts = pd.Series(index=dti, data=range(20))
我可以使用pandas函数计算指数加权移动平均值,半衰期为5ms,如下所示:
ema = pd.ewma(ts, halflife=5, freq='ms')
然而,在引擎盖下,该功能是以1 ms的间隔重新采样我的时间序列(这是我提供的'freq')。这会导致数千个额外的数据点包含在输出中。
In [118]: len(ts)
Out[118]: 20
In [119]: len(ema)
Out[119]: 10010
这是不可扩展的,因为我的真实时间序列包含数十万个相隔几分钟或几小时的高频观测。
对于没有重新采样的稀疏时间序列,是否有Pandas / numpy计算EMA的方法?类似于此的内容:http://oroboro.com/irregular-ema/
或者,我必须自己写吗?谢谢!
答案 0 :(得分:0)
您可以使用reindex
将ewma
结果与原始系列对齐。
pd.ewma(ts, halflife=5, freq='ms').reindex(ts.index)
2015-08-01 09:00:00.000 0.0000
2015-08-01 09:00:00.001 0.5346
2015-08-01 09:00:00.002 1.0921
2015-08-01 09:00:00.003 1.6724
2015-08-01 09:00:00.004 2.2750
2015-08-01 09:00:00.005 2.8996
2015-08-01 09:00:00.006 3.5458
2015-08-01 09:00:00.007 4.2131
2015-08-01 09:00:00.008 4.9008
2015-08-01 09:00:00.009 5.6083
2015-08-01 09:00:10.000 10.0000
2015-08-01 09:00:10.001 10.5346
2015-08-01 09:00:10.002 11.0921
2015-08-01 09:00:10.003 11.6724
2015-08-01 09:00:10.004 12.2750
2015-08-01 09:00:10.005 12.8996
2015-08-01 09:00:10.006 13.5458
2015-08-01 09:00:10.007 14.2131
2015-08-01 09:00:10.008 14.9008
2015-08-01 09:00:10.009 15.6083
dtype: float64