我有一个数据框,其中包含多年记录的气候数据功能,其中包括记录日期。
我想对该系列进行建模,该系列具有日期功能,可以预测我怀疑受到气候数据影响的每周结果,但记录每周从每年的1月1日开始,直到12月24日结束。意味着年份的录音有不同的工作日。
statsmodels.tsa
想要录制的频率,但是除非我每年独立建模,或者只是将录制工作日同步的年份分组,否则我将错过更大的前景,并且会丢失大量的数据以进行训练。
是否可以将这种时间模式引入statsmodels
或其他时间序列建模库中?
编辑,添加了一些代码以重现一些数据。 statsmodels.org慷慨提供的功能
def simulate_seasonal_term(periodicity, total_cycles, noise_std=1.,
harmonics=None):
duration = periodicity * total_cycles
assert duration == int(duration)
duration = int(duration)
harmonics = harmonics if harmonics else int(np.floor(periodicity / 2))
lambda_p = 2 * np.pi / float(periodicity)
gamma_jt = noise_std * np.random.randn((harmonics))
gamma_star_jt = noise_std * np.random.randn((harmonics))
total_timesteps = 100 * duration # Pad for burn in
series = np.zeros(total_timesteps)
for t in range(total_timesteps):
gamma_jtp1 = np.zeros_like(gamma_jt)
gamma_star_jtp1 = np.zeros_like(gamma_star_jt)
for j in range(1, harmonics + 1):
cos_j = np.cos(lambda_p * j)
sin_j = np.sin(lambda_p * j)
gamma_jtp1[j - 1] = (gamma_jt[j - 1] * cos_j
+ gamma_star_jt[j - 1] * sin_j
+ noise_std * np.random.randn())
gamma_star_jtp1[j - 1] = (- gamma_jt[j - 1] * sin_j
+ gamma_star_jt[j - 1] * cos_j
+ noise_std * np.random.randn())
series[t] = np.sum(gamma_jtp1)
gamma_jt = gamma_jtp1
gamma_star_jt = gamma_star_jtp1
wanted_series = series[-duration:] # Discard burn in
return wanted_series
dt_idx = pd.date_range('2020-01-01', periods=10).append(pd.date_range('2020-02-01', periods=10))
feat1 = simulate_seasonal_term(10, 2, 4, 3)
feat2 = simulate_seasonal_term(10, 2, 4, 4)
t = np.random.normal(loc=14,scale = 4, size=20)
target = (t-np.sin(-t))//1
df = pd.DataFrame(columns=['feat1','feat2','target'], index=dt_idx)
df['feat1'], df['feat2'],df['target'] = feat1,feat2,target
我们可以看到该数据在其功能范围内具有季节性,并且记录在给定时间段内是一致的。
谢谢!