我正在一个项目中,我想为食品公司做每天的销售预测。他们既将大宗订单出售给零售商,又直接出售给客户,这意味着它们每笔交易的销售额都非常大和很小。我已经完成了一些基本的数据清理和功能工程设计,并运行了许多回归算法,包括使用scikit Learn进行的随机森林回归和梯度提升。我已经使用rmse和mape评估了模型,但是所有模型都给出了糟糕的结果。我考虑过通过按销售额对数据进行分组来分离销售数据,即> 1000的大交易和<1000的小交易。但是,这仍然给出了相当差的结果。
然后我对销售额(响应变量)进行了Box-cox转换,如果<22,突然得到了更好的映射。以这种方式标准化响应变量真的合乎逻辑吗?
最后,我可以尝试其他算法,例如蒙德里安森林,但我对它们没有经验,并且可能会误解它们在这种情况下将如何帮助我。
如果我错过了一些非常基本的东西,我深表歉意。我在使用机器学习方面相对缺乏经验。