当我遇到“损失”参数时,我正在使用sklearn的GradientBoostingClassifier [sklearn.ensemble.GradientBoostingClassifier]训练Gradient Boosting模型。
sklearn页面上的官方解释是-
损失:{'deviance','指数'},可选(默认='deviance')
损失功能有待优化。 “偏离”是指偏离(= logistic回归),以概率输出进行分类。 对于损失,“指数”梯度提升可恢复AdaBoost 算法。
sklearn.ensemble.GradientBoostingClassifier
根据我的有限理解,我的问题是,“距离”损失函数用于概率分类(就像Naive-Bayes的概率输出用于分类)。
“指数”损失函数会发生什么? 要么 何时应使用“指数”损失函数
根据sklearn.ensemble.AdaBoostClassifier页面sklearn.ensemble.AdaBoostClassifier
对于“算法”参数-
算法:{“ SAMME”,“ SAMME.R”},可选(默认=“ SAMME.R”)
如果为“ SAMME.R”,则使用SAMME.R实数增强算法。 base_estimator必须支持类概率的计算。如果 然后,“ SAMME”使用SAMME离散增强算法。 SAMME.R 该算法通常会比SAMME收敛更快,从而降低收敛速度。 提升迭代次数更少的测试错误。
这意味着(AdaBoost的)“ SAMME.R”类似于GradientBoostingClassifier的“ loss”参数的“ deviance”吗?
我的理解正确吗,或者我缺少什么?
谢谢!