R gbm函数中的权重参数

时间:2015-04-16 12:01:31

标签: r machine-learning classification data-mining gbm

R gbm函数中的weights参数是什么?它是否实施成本敏感的随机梯度提升?

1 个答案:

答案 0 :(得分:3)

您可能已经阅读过此内容,但文档说明weights参数是以这种方式定义的:

  

在拟合过程中使用的可选的权重向量。必须   积极但不需要规范化。如果keep.data = FALSE in   最初调用gbm然后是用户的责任   将重量重新补给gbm.more。

因此,我的解释是它们是任何统计模型中的标准观察权重。

对成本敏感吗?好问题。我首先注意到该软件包的主要引用之一是:

B中。克里格勒(2007)。 Cost-Sensitive Stochastic Gradient Boosting Within a Quantitative Regression Framework

所以我认为这确实意味着成本敏感度,但是在小插图中没有明确使用该术语,所以如果不明显的话。

我做了一些更深入的潜水,并找到了更多的资源。您可以在描述包装的this文章末尾找到描述权重的等式。

我还发现这个问题被问到way back in 2009 in a mailing list,虽然没有回复,但我终于找到了scholarly article讨论gbm和其他R套餐用于成本敏感度梯度的问题增压。

结论是gbm的分位数损失函数是可微分的,并且可以用于成本敏感的应用,其中过高/低估有不同的误差成本,但是其他定量损失函数(除了分位数)可能在成本敏感的梯度增强的某些应用中是必要/适当的。

该论文以gbm为中心,但也讨论了其他软件包,如果您的重点是成本敏感的渐变增强,那么您可能还想看看他们在论文中提到的其他软件包。