我的数据(时间序列)包含两年的数据。(值/天,行= 360 * 2)
现在,我尝试使用statsmodels中的SARIMA模型。 我随机选择参数(订单和季节性订单)。 订单=(1,0,1),季节性订单=(0,1,0,360) 非常适合我的数据。
但本质上我不了解。 我应该如何选择参数(p,d,q)? order =(P,D,Q),season_order =(p,d,q,s = 360?) 我可以从ACF或PACF图中读取它吗?还是摘要中的AIC,BIC?
(我试图从“最小的AIC模型”中选择它,但是效果不佳)
import statsmodels.api as sm
SARIMA_1_0_1_010 = sm.tsa.SARIMAX(t3, order=(1,0,1), seasonal_order=(0,1,0,300)).fit()
print(SARIMA_1_0_1_010.summary())
residSARIMA = SARIMA_1_0_1_010.resid
fig = plt.figure(figsize=(12,8))
ax1 = fig.add_subplot(211)
fig = sm.graphics.tsa.plot_acf(residSARIMA.values.squeeze(), lags=100, ax=ax1)
ax2 = fig.add_subplot(212)
fig = sm.graphics.tsa.plot_pacf(residSARIMA, lags=100, ax=ax2)
pred = SARIMA_1_0_1_010.predict(700, 1200)
plt.figure(figsize=(22,10))
plt.plot(t3)
plt.plot(pred, "r")
max_p = 3
max_q = 3
max_d = 1
max_sp = 0
max_sq = 0
max_sd = 0
pattern = max_p*(max_q + 1)*(max_d + 1)*(max_sp + 1)*(max_sq + 1)*(max_sd + 1)
modelSelection = pd.DataFrame(index=range(pattern), columns=["model", "aic"])
season = 360
num = 0
for p in range(1, max_p + 1):
for d in range(0, max_d + 1):
for q in range(0, max_q + 1):
for sp in range(0, max_sp + 1):
for sd in range(0, max_sd + 1):
for sq in range(0, max_sq + 1):
sarima = sm.tsa.SARIMAX(
t3, order=(p,d,q),
seasonal_order=(sp,sd,sq,360),
enforce_stationarity = False,
enforce_invertibility = False
).fit()
modelSelection.ix[num]["model"] = "order=(" + str(p) + ","+ str(d) + ","+ str(q) + "), season=("+ str(sp) + ","+ str(sd) + "," + str(sq) + ")"
modelSelection.ix[num]["aic"] = sarima.aic
modelSelection.ix[num]["bic"] = sarima.bic
num = num + 1
modelSelection[modelSelection.aic == min(modelSelection.aic)]
预测不好。...
答案 0 :(得分:0)
这里的基本问题是,当季节性影响非常长时,SARIMAX
并不是一个很好的模型(例如参见https://stats.stackexchange.com/questions/117953/very-high-frequency-time-series-analysis-seconds-and-forecasting-python-r/118050#118050)。
通常,通过信息标准选择模型的顺序(例如p,q和P,Q)是一个好主意,但是以这种方式选择差分顺序(d或D)不是一个好主意。
使用SARIMAX
模型时可以帮助自动选择模型的python软件包是https://github.com/tgsmith61591/pmdarima。
但是,我要重复一遍,这通常不适用于季节长度为360的车型。