在非常大的数据集上使用提升算法的过度拟合问题

时间:2020-05-24 04:21:03

标签: regression

这是一个回归模型。 我有一个数据集,其形状接近4 500 000行和10列(这些特征对于模型很重要,无法删除)。我对以下算法进行了交叉验证(10倍),而没有任何超参数调整:

  • 线性回归
  • 随机森林
  • AdaBoost
  • XGBOOST
  • LightGBM

指标是均方误差。 过度拟合非常清楚。

Here are the results of the train and test errors

因此,除了AdaBoost以外,其他所有算法似乎都过拟合。我将learning_rate固定为0.1,过拟合有所减少,但是仍然存在。如何使用RandomForest,XGBOOST和LightGBM算法修复它?还是我应该超调AdaBoost算法(这样做时,我进行了测试并训练了mse = 0.12左右的误差,这相当不错)?

0 个答案:

没有答案