应用错误收集

我正在一个项目中，我想为食品公司做每天的销售预测。他们既将大宗订单出售给零售商，又直接出售给客户，这意味着它们每笔交易的销售额都非常大和很小。我已经完成了一些基本的数据清理和功能工程设计，并运行了许多回归算法，包括使用scikit Learn进行的随机森林回归和梯度提升。我已经使用rmse和mape评估了模型，但是所有模型都给出了糟糕的结果。我考虑过通过按销售额对数据进行分组来分离销售数据，即> 1000的大交易和<1000的小交易。但是，这仍然给出了相当差的结果。

然后我对销售额（响应变量）进行了Box-cox转换，如果<22，突然得到了更好的映射。以这种方式标准化响应变量真的合乎逻辑吗？

最后，我可以尝试其他算法，例如蒙德里安森林，但我对它们没有经验，并且可能会误解它们在这种情况下将如何帮助我。

如果我错过了一些非常基本的东西，我深表歉意。我在使用机器学习方面相对缺乏经验。

归一化响应变量以进行随机森林回归

0 个答案: