集成学习背后的概念?

时间:2019-11-18 08:59:15

标签: machine-learning aggregation decision-tree ensemble-learning boosting

我尝试学习诸如Bagging和Boosting之类的集成ML算法。但是我不清楚,为什么要使用Bagging算法,必须并行考虑决策树作为基础模型,为什么要使用Boosting,则必须顺序采用决策树。

这背后是否有特定的原因?有人请解释。

1 个答案:

答案 0 :(得分:0)

装袋仅仅是分类器的集合,它们全都有助于最终决策。您可以使用数据中的不同功能(随机森林)创建集合,也可以在同一组功能上训练不同的模型。

在香草ML中,数据集中的每个记录都以相同的权重进行处理。增强功能(例如 adaboost )的想法是迭代地训练模型,并检查哪些记录存在问题。您正在相应地修改权重,训练下一个模型,希望它会做得更好。现实世界的想法是:有些记录很容易,有些记录很困难,因此我们正在尝试训练一个模型,该模型将能够同时解决这两个问题。

这只是直观的外观。方法很少。最好检查特定方法的文档,例如xgboost

最好自己在不同的数据集上运行以获取一些直觉,例如:香草SVM在包含异常值的数据上会失败,xgb会很好。