(希望这是针对此类问题的正确论坛,如果不是,请提出建议。)
XGBoost库与Random Forest的梯度增强效果如何?是否有任何基准数据比较两者?
我即将开始对数据集中的数百万个事件进行分类和回归方面的工作(至少6GB,高达TB)。
由于
答案 0 :(得分:0)
您可以将数据下采样到几个MB(可以使用数千个功能),并检查这两种算法的性能。
尽管如此,由于已努力将目标损失函数减小为两个导数,因此XGBoost对于大数据将更加有效。您可能会遇到大数据RF的问题。例如,尝试在R中使用大数据运行RF,您很快就会意识到RF并不是处理大数据的最佳选择。