我需要通过从数据集中保留最后5周来应用时间序列交叉验证来验证模型。
然后预测一周,并逐周将样本周添加到您的样本中。记录MSE并绘制预测。
我的问题在于我拥有的CSV文件中的日期和时间,以及如何删除过去5周。 数据集:
data = pd.read_csv('https://www.wu.ac.at/usr/ma/nloehndo/dmds/data/pm_25_weather.csv', index_col=0, parse_dates=[0], infer_datetime_format=True)
答案 0 :(得分:2)
您可以在索引中找到最后一个日期之前5周的日期,如下所示:
In [18]: data.index[-1] - pd.DateOffset(weeks=5)
Out[18]: Timestamp('2015-01-17 23:00:00')
然后创建一个布尔掩码
cutoff = data.index[-1] - pd.DateOffset(weeks=5)
mask = data.index < cutoff
将数据分为两组:
train, test = data.loc[mask], data.loc[~mask]