用于分类/多类分类的梯度提升树的弱学习者

时间:2018-04-25 10:51:25

标签: machine-learning scikit-learn classification

我是机器学习领域的初学者,我想学习如何使用Gradient Boosting Tree(GBT)进行多类分类。我已经阅读了一些关于GBT但有关回归问题的文章,我找不到关于GBT的多类分类的正确解释。我还检查scikit-learn库中的GBT进行机器学习。 GBT的实现是GradientBoostingClassifier,它使用回归树作为多类分类的弱学习者。

  

GB以前进阶段的方式构建一个加法模型;它允许优化任意可微分损失函数。在每个阶段中,n_classes_回归树适合二项式或多项式偏差损失函数的负梯度。二进制分类是一种特殊情况,只会导致单个回归树。

来源:http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingClassifier.html#sklearn.ensemble.GradientBoostingClassifier

事情是,为什么我们使用回归树作为GBT的学习者而不是分类树?如果有人可以向我提供有关为什么使用回归树而不是分类树以及回归树如何进行分类的解释,这将非常有用。谢谢

1 个答案:

答案 0 :(得分:2)

你正在解释'回归'在这里太字面意思(作为数字预测),但事实并非如此;请记住,分类是使用logistic regression 处理的。例如,请参阅您链接的文档页面中的丢失条目:

  

损失:{'deviance','exponential'},可选(默认='deviance')

     

要优化的损失函数。 “偏差”是指用概率输出进行分类的偏差(=逻辑回归)。对于损失'指数'梯度增强恢复AdaBoost算法。

所以,一个'分类树'只是一个带有loss='deviance' ...

的回归树