再次运行相同输入数据集的相同GBM模型的预测值正在更改

时间:2019-01-30 09:47:51

标签: r gradient prediction predict gbm

我正在使用梯度提升模型预测未来7天的网络流量。

n=200
set.seed(123)
predict_traffic<-gbm(traffic~log(rolling_traffic_26day_avg)+week+weekday+is_holiday+month,
             data=df,
             distribution = "gaussian",
             interaction.depth=2,
             bag.fraction=0.8,
             n.trees = n)

变量rolling_traffic_26day_avg是最近26天(6个月)的平均值。例如:2019年1月1日星期二的值是最近26个星期二的平均值(不包括2019年1月1日)。

我对2017年1月1日至2019年1月20日的数据进行了模型训练。 我的测试数据集是2019年1月21日至1月27日。由于滚动变量,我不能预测超过7天。

df_test$predicted_traffic<-predict.gbm(predict_traffic,df_test,n.trees=200)

我已经制作了gbm模型并保存了它。现在,当我基于相同模型在2019年1月23日至1月27日进行预测时,2019年1月27日的值将发生变化。

2019年1月27日在第一个测试数据集中的预测:155 在第二个测试数据集中对2019年1月27日的预测:133 *此性质适用于所有预测日期。* 有人可以解释一下为什么会这样吗?

0 个答案:

没有答案