我有14。5年的预算数据,合同ID,项目类型等,我正在尝试建立一个为期18个月的时间序列预测。数据最初是作为(非连续)日期的合同ID的单独付款。使用Excel,我按月转入总付款;稍后,我将包括一个月内的有效合同总数,合同类型的组成等。总共有3134个行(5296个中),在这些行中进行的付款 - 没有付款的日期没有记录在这个数据*。
我目前正在使用的功能列表和结构如下(并非下面的所有功能,只是尝试使用线性t将模型连接在一起):
head(exp)
Amount Day Month Year t
1 269909.4 5 7 2000 1
2 792078.6 6 7 2000 2
3 140065.5 7 7 2000 3
4 190553.2 11 7 2000 4
5 119208.6 12 7 2000 5
6 1068156.3 16 7 2000 6
> str(exp)
'data.frame': 3134 obs. of 5 variables:
$ Amount: num 269909 792079 140066 190553 119209 ...
$ Day : int 5 6 7 11 12 16 17 21 26 28 ...
$ Month : int 7 7 7 7 7 7 7 7 7 7 ...
$ Year : int 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 ...
$ t : int 1 2 3 4 5 6 7 8 9 10 ...
我遇到了这些问题/问题:
Dplyr根本不喜欢我在data.frame中使用的ts()
个对象,因此按月/合同/合同类型进行过滤和排序并不起作用。这里最好的方法是什么?我不确定使用ts与timeSeries的优缺点,特别是因为它们与其他软件包的兼容性有关。
*如果我从7/1/00和2014年12月31日之间的所有5296天的向量开始,以及t <- 1:5296
并将这些3134天的付款关键,那么这会更容易吗?完整的日期清单?