熊猫时间序列DataFrame缺失值

时间:2016-06-30 09:51:27

标签: python pandas dataframe time-series forecasting

我有一个2008年至2015年的总销售额数据集。我每天都有一个条目,因此我创建了一个带有DataFrame的pandas DatetimeIndex和一个销售列。所以它看起来像enter image description here

问题是我在2010年的大部分时间都缺少数据。这些缺失值目前由0.0表示,所以如果我绘制DataFrame,我会得到

enter image description here

我想尝试2016年的预测值,可能使用 ARIMA 模型,所以我采取的第一步是对此时间序列进行分解

enter image description here

显然,如果我在DataFrame中离开2010年,任何尝试的预测都会因销售额的明显(尽管是错误的)下降而出现偏差。

在这种情况下推荐的方法是什么?我想我应该完全放弃2010年,但后来我不知道我的时间序列是否有效,从2009年到2011年。我不想填补缺失的值,因为我不知道相信我能准确地做到这一点。

如果我只是删除2010年,那么情节'填写' 2010年对我没有帮助

sales = sales.drop(sales['2010'].index)

enter image description here

0 个答案:

没有答案