我实际上正在研究一种带有R的电动汽车时间偏离的预测模型。作为数据,我有两年前的时间偏离历史,我正在寻找构建带日期的预测模型(一天)作为输入,模型的输出将是时间偏离。
可以考虑在两次开始之间一小时执行一个步骤(例如:18h35
- > 18h00
)
我试图将问题视为聚类一个(1表示“有离开”,0表示“无”)并应用randomForest模型(白天和小时作为输入,1或0作为输出) ,但模型无法找到输出和输入之间的链接,并观察当天或小时,模型给出了这个结果:“1)root 13561 730 0(0.9461 0.0538)*”。
考虑到的其他想法是使用时间序列,使用arima或nnet但是徒劳无法获得任何结果
Ps:你会在下面找到一个如何给出数据的图像。但是我有超过1460次出发事件,相当于2年的驾驶(2014,2015,2016)。
对这两种方法有什么想法?
答案 0 :(得分:0)
从你提到的方法来看,恐怕模型在整个2年内的平均出发时间都不会超过。
您显然必须创建更复杂的日历变量作为模型输入。您可能想要添加:
一天中的小时(数字因素)
日期类型(工作日/星期六/星期日)
国定假日/学校假期
为什么不将它与一些气候数据联系起来,根据我的经验,这些数据通常会产生一些影响:
降雨预测
室外温度
您还可以添加滞后变量:
前一天的使用情况(出发次数)
其他车辆的使用
完成此设置后,如果使用线性模型,则必须测试多个交互;但是机器学习模型可以在这里得到好的结果(整体算法的神经网络)
无论如何,我猜这种问题更适用于Cross Validated网站