Question

我从较大的时间序列中提取了以下时间序列数据框。

df_test = df.loc[(df['time'] >= '2015-05-01') & (df['time'] <= '2015-05-09')]
df_test.set_index('time')

数据的头部如下所示：

                   time  total_consumption
122400 2015-05-01 00:01:00            106.391
122401 2015-05-01 00:11:00            120.371
122402 2015-05-01 00:21:00            109.292
122403 2015-05-01 00:31:00             99.838
122404 2015-05-01 00:41:00             97.387

使用SARIMAX，我获得了这个模型：

mod = sm.tsa.statespace.SARIMAX(np.asarray(df_test['total_consumption']),
                                        order=(1,1,1),
                                        seasonal_order=(0,1,1,12),
                                        enforce_stationarity=False,
                                        enforce_invertibility=False)          
results_final = mod.fit()

然后我尝试根据模型得到预测：

start = pd.to_datetime('2015-05-08 00:01:00')
pred = results_final.get_prediction(start, dynamic=False)
pred_ci = pred.conf_int()

但是，当我尝试使用get_prediction（）命令预测数据帧的结尾时，我收到此错误消息，似乎无法弄清楚原因。

ValueError: Got a string for start and dates is None

谢谢

Answer 1

我猜问题是你没有使用时间索引。如果要使用日期，则数据必须是带有日期/时间索引的pandas系列。在删除np.asarray之后尝试并在创建模型时直接使用df_test ['total_consumption']。

numpy数组没有任何日期信息，因此日期不能用于指定预测期间。在numpy数组的情况下，需要使用通常的numpy整数索引来指定预测或预测周期。

Python Statsmodels get_prediction（），'ValueError：得到一个开头字符串，日期是无'

1 个答案: