我正在尝试了解Scikit-Learn的Gradient Boosting回归算法。我遵循他们的源代码,并基于所选择的损失函数很好地理解他们的树的迭代构造。我无法找到答案的是,当我调用 predict()
时,他们如何取得所有潜在估算师的标签平均值。
我跟着这个函数调用this line。在这里, scale
包含 learning_rate
,如果未提供,则默认为0.1。所以,如果我要使用500棵树,我不明白为什么它们会将给定样本的500个不同标签中的每一个乘以0.1。
如果有人可以指导我发表一篇深入解释这一问题的论文,我们将不胜感激。