用非连续时间索引建模时间序列?

时间:2020-08-13 23:10:00

标签: python time-series

我有一个数据框,其中包含多年记录的气候数据功能,其中包括记录日期。

我想对该系列进行建模,该系列具有日期功能,可以预测我怀疑受到气候数据影响的每周结果,但记录每周从每年的1月1日开始,直到12月24日结束。意味着年份的录音有不同的工作日。


statsmodels.tsa想要录制的频率,但是除非我每年独立建模,或者只是将录制工作日同步的年份分组,否则我将错过更大的前景,并且会丢失大量的数据以进行训练。

是否可以将这种时间模式引入statsmodels或其他时间序列建模库中?

编辑,添加了一些代码以重现一些数据。 statsmodels.org慷慨提供的功能


    def simulate_seasonal_term(periodicity, total_cycles, noise_std=1.,
                               harmonics=None):
        duration = periodicity * total_cycles
        assert duration == int(duration)
        duration = int(duration)
        harmonics = harmonics if harmonics else int(np.floor(periodicity / 2))
    
        lambda_p = 2 * np.pi / float(periodicity)
    
        gamma_jt = noise_std * np.random.randn((harmonics))
        gamma_star_jt = noise_std * np.random.randn((harmonics))
    
        total_timesteps = 100 * duration # Pad for burn in
        series = np.zeros(total_timesteps)
        for t in range(total_timesteps):
            gamma_jtp1 = np.zeros_like(gamma_jt)
            gamma_star_jtp1 = np.zeros_like(gamma_star_jt)
            for j in range(1, harmonics + 1):
                cos_j = np.cos(lambda_p * j)
                sin_j = np.sin(lambda_p * j)
                gamma_jtp1[j - 1] = (gamma_jt[j - 1] * cos_j
                                     + gamma_star_jt[j - 1] * sin_j
                                     + noise_std * np.random.randn())
                gamma_star_jtp1[j - 1] = (- gamma_jt[j - 1] * sin_j
                                          + gamma_star_jt[j - 1] * cos_j
                                          + noise_std * np.random.randn())
            series[t] = np.sum(gamma_jtp1)
            gamma_jt = gamma_jtp1
            gamma_star_jt = gamma_star_jtp1
        wanted_series = series[-duration:] # Discard burn in
    
        return wanted_series
    
    
    dt_idx = pd.date_range('2020-01-01', periods=10).append(pd.date_range('2020-02-01', periods=10))
    feat1 = simulate_seasonal_term(10, 2, 4, 3)
    feat2 = simulate_seasonal_term(10, 2, 4, 4)
    t = np.random.normal(loc=14,scale = 4, size=20)
    target = (t-np.sin(-t))//1
    df = pd.DataFrame(columns=['feat1','feat2','target'], index=dt_idx)
    df['feat1'], df['feat2'],df['target'] = feat1,feat2,target


[![tsdata] [1]] [1]

我们可以看到该数据在其功能范围内具有季节性,并且记录在给定时间段内是一致的。

谢谢!

0 个答案:

没有答案