Python时间序列ARIMA预测

时间:2016-12-15 11:43:43

标签: python time-series forecasting

我正在尝试实施时间序列预测,并按照此处的有用教程进行操作:https://www.analyticsvidhya.com/blog/2016/02/time-series-forecasting-codes-python/

我的时间序列对象的样本,在日志转换等之后可以在下面找到:

ts = 

2015-02-01  4.532599
2015-03-01  7.635787
2015-04-01  7.698029
2015-05-01  4.564348
2015-06-01  4.744932
2015-09-01  5.365976
2015-10-01  7.657283
2016-02-01  7.059618
2016-03-01  5.433722
2016-04-01  7.600902

当我到达试图激活AR模型的时候,即

model = ARIMA(ts_log, order=(1, 1, 0))
results_AR = model.fit(disp=-1)
plt.plot(ts_log)
plt.plot(results_AR.fittedvalues, color='red')
plt.title('RSS: %.4f'% sum((results_AR.fittedvalues-ts_log_diff)**2))
plt.show()

我的问题是,当我尝试这样做时,我得到:

TypeError: ufunc 'add' did not contain a loop with signature matching types dtype('<U21') dtype('<U21') dtype('<U21')

当我打印出时间序列索引中的数据类型时,我得到:

DatetimeIndex(['2015-05-01'], dtype='datetime64[ns]', freq=None)

然后我尝试在ARIMA()中添加日期参数,如下所示:

model = ARIMA(dt_ts, order=(1, 1, 0), dates=dt_ts.index.values)

或添加一个单独的数组,其中所有日期都被称为格式化:

model = ARIMA(dt_ts, order=(1, 1, 0), dates=formatted)

在这两种情况下我都得到了这个:

ValueError: Given a pandas object and the index does not contain dates

任何人都知道为什么会发生这种情况以及如何解决这个问题?

提前致谢。

1 个答案:

答案 0 :(得分:0)

好像您的索引定义不正确。

所以问题出在原始ts上。

我尝试使用下面的代码复制错误,并且该错误按预期运行。

import pandas as pd
from statsmodels.tsa.arima_model import ARIMA

periods = 10000
my_index = pd.date_range('2016-07-01', periods=periods, freq='D')
data = np.random.randint(100,1000,periods)
ts = pd.Series(data=data, index=my_index, name='Monthly Returns')
ts_log=np.log(ts).diff().dropna()
print(ts.index)

DatetimeIndex(['2016-07-01', '2016-07-02', '2016-07-03', '2016-07-04',
           '2016-07-05', '2016-07-06', '2016-07-07', '2016-07-08',
           '2016-07-09', '2016-07-10',
           ...
           '2043-11-07', '2043-11-08', '2043-11-09', '2043-11-10',
           '2043-11-11', '2043-11-12', '2043-11-13', '2043-11-14',
           '2043-11-15', '2043-11-16'],
          dtype='datetime64[ns]', length=10000, freq='D')

如果我们执行剩余的计算,则它应该绘制成没有任何错误。

model = ARIMA(ts_log, order=(1, 1, 0))
results_AR = model.fit(disp=-1)
plt.plot(ts_log)
plt.plot(results_AR.fittedvalues, color='red')
plt.title('RSS: %.4f'% sum((results_AR.fittedvalues-ts_log)**2))
plt.show()

Resulting Plot