XGBoost(Gradient Boosting)与随机森林

时间:2016-10-20 03:51:13

标签: random-forest decision-tree gradient-descent xgboost gbm

(希望这是针对此类问题的正确论坛,如果不是,请提出建议。)

XGBoost库与Random Forest的梯度增强效果如何?是否有任何基准数据比较两者?

我即将开始对数据集中的数百万个事件进行分类和回归方面的工作(至少6GB,高达TB)。

由于

1 个答案:

答案 0 :(得分:0)

您可以将数据下采样到几个MB(可以使用数千个功能),并检查这两种算法的性能。

尽管如此,由于已努力将目标损失函数减小为两个导数,因此XGBoost对于大数据将更加有效。您可能会遇到大数据RF的问题。例如,尝试在R中使用大数据运行RF,您很快就会意识到RF并不是处理大数据的最佳选择。