如何处理时间序列问题中的2个日期列?

时间:2019-07-11 08:52:10

标签: python machine-learning time-series arima holtwinters

我有一个数据集,其中有2个日期列。如下表所示。 train_fare和pred_fare位于不同的文件中并且具有不同的日期

flt_number carrier flt_date flt_book_dt train_fare/pred_fare

123    L1    2018-01-01    2017-11-01    2015/NaN
123    L1    2018-01-01    2017-11-02     562/NaN
123    L1    2018-01-01    2017-11-03     562/NaN
...
123    L1    2018-01-01    2018-01-01    2015/NaN
123    L1    2018-02-01    2018-12-17     562/NaN
123    L1    2018-02-01    2018-12-18     562/NaN
...
123    L1    2018-04-01    2018-04-01    5055/NaN
123    L1    2018-05-01    2018-04-02     890/NaN
111    L2    2018-01-01    2017-11-15    1000/NaN
...

现在,即使我按flt_date或flt_book_dt的两个日期对数据框进行排序,也缺少某些日期,但两个日期都在移动,有时还会重复,所以我们需要预测的情况类似于在任何特定flt_book_dt上的价格一样在flt_date上飞行

111    L2    2019-05-01    2019-03-10    ??

我到目前为止所做的是,我将两列中的所有缺失日期都估算为零,并将0火车票价估算为0,这可能意味着当天未安排航班,但是我不知道该怎么办在建模中有两个日期?我无法创建2个系列,因为日期也在重复,因此我们会在train_fare中丢失很多值。

编辑: 我为不同的flt_number创建了具有多个时间序列的数据透视表,然后可以使用VARMAX,但仍然有2个日期可以使用。有什么想法吗?

0 个答案:

没有答案