我有一个2008年至2015年的总销售额数据集。我每天都有一个条目,因此我创建了一个带有DataFrame
的pandas DatetimeIndex
和一个销售列。所以它看起来像
问题是我在2010年的大部分时间都缺少数据。这些缺失值目前由0.0
表示,所以如果我绘制DataFrame,我会得到
我想尝试2016年的预测值,可能使用 ARIMA 模型,所以我采取的第一步是对此时间序列进行分解
显然,如果我在DataFrame中离开2010年,任何尝试的预测都会因销售额的明显(尽管是错误的)下降而出现偏差。
在这种情况下推荐的方法是什么?我想我应该完全放弃2010年,但后来我不知道我的时间序列是否有效,从2009年到2011年。我不想填补缺失的值,因为我不知道相信我能准确地做到这一点。
如果我只是删除2010年,那么情节'填写' 2010年对我没有帮助
sales = sales.drop(sales['2010'].index)