我有一个数据集,其中有2个日期列。如下表所示。 train_fare和pred_fare位于不同的文件中并且具有不同的日期
flt_number carrier flt_date flt_book_dt train_fare/pred_fare
123 L1 2018-01-01 2017-11-01 2015/NaN
123 L1 2018-01-01 2017-11-02 562/NaN
123 L1 2018-01-01 2017-11-03 562/NaN
...
123 L1 2018-01-01 2018-01-01 2015/NaN
123 L1 2018-02-01 2018-12-17 562/NaN
123 L1 2018-02-01 2018-12-18 562/NaN
...
123 L1 2018-04-01 2018-04-01 5055/NaN
123 L1 2018-05-01 2018-04-02 890/NaN
111 L2 2018-01-01 2017-11-15 1000/NaN
...
现在,即使我按flt_date或flt_book_dt的两个日期对数据框进行排序,也缺少某些日期,但两个日期都在移动,有时还会重复,所以我们需要预测的情况类似于在任何特定flt_book_dt上的价格一样在flt_date上飞行
111 L2 2019-05-01 2019-03-10 ??
我到目前为止所做的是,我将两列中的所有缺失日期都估算为零,并将0火车票价估算为0,这可能意味着当天未安排航班,但是我不知道该怎么办在建模中有两个日期?我无法创建2个系列,因为日期也在重复,因此我们会在train_fare中丢失很多值。
编辑: 我为不同的flt_number创建了具有多个时间序列的数据透视表,然后可以使用VARMAX,但仍然有2个日期可以使用。有什么想法吗?