应用错误收集

XGBoost（Gradient Boosting）与随机森林

时间：2016-10-20 03:51:13

标签： random-forest decision-tree gradient-descent xgboost gbm

（希望这是针对此类问题的正确论坛，如果不是，请提出建议。）

XGBoost库与Random Forest的梯度增强效果如何？是否有任何基准数据比较两者？

我即将开始对数据集中的数百万个事件进行分类和回归方面的工作（至少6GB，高达TB）。

由于

1 个答案:

答案 0 :(得分：0)

您可以将数据下采样到几个MB（可以使用数千个功能），并检查这两种算法的性能。

尽管如此，由于已努力将目标损失函数减小为两个导数，因此XGBoost对于大数据将更加有效。您可能会遇到大数据RF的问题。例如，尝试在R中使用大数据运行RF，您很快就会意识到RF并不是处理大数据的最佳选择。