我在R中对声明频率(poisson distr)进行建模。我正在使用gbm
和xgboost
包,但似乎xgboost
没有要使用的偏移参数考虑到这种风险?
在gbm
中,我们会将曝光考虑在内,如下所示:
gbm.fit(x = train,y = target, n.trees = 100,distribution = "poisson", offset = log(exposure))
如何使用`xgboost?
实现相同目的PS:我不能将曝光用作预测器,因为每次观察到声明都会产生新的遮挡。
答案 0 :(得分:3)
创建xgboost矩阵后,可以使用setinfo和base_margin属性设置偏移量,例如:
setinfo(xgtrain, "base_margin", log(d$exposure))
您可以看到我在此处提出的类似问题的完整示例:XGBoost - Poisson distribution with varying exposure / offset
答案 1 :(得分:0)
通过曝光标准化您的计数并使用曝光作为重量。有关详细信息,请参阅this答案。