我正在尝试使用rpart和gbm软件包对索赔频率进行建模。我对这些软件包有一些疑问。
在rpart模型中,收缩参数的目的/功能是什么?
在gbm模型中,我使用的权重正确吗?我得到一个输出(没有错误),但是我只是想确保我理解它是正确的。
在gbm模型中,我知道参数n.minobsinnode可以说每个节点至少应有10个观测值。但是,有没有办法说每个节点至少应有1个主张?我不希望有一个模型可以为某些观察预测索赔频率为0。
在RandomForest中,每个拆分均从n个变量中随机选择d个变量。但是在gbm模型中,每次拆分都会考虑所有n个变量吗?
在基于树的模型中,是否可以抵消一个变量(例如自付额)?
Model_tree <- rpart(cbind(duration, nclaims) ~ Var_1 + … + Var_n ,
data = data ,
method = "poisson",
parms = list(shrink = 1),control=rpart.control(minbucket = 10, cp = 0.00005 , maxdepth = 5))
# Gradient Boosting Model
Model_gbm <- gbm(nclaims ~ Var_1 + … + Var_n,
data = data,
weights = duration,
distribution = "poisson",
cv.folds = 0,
shrinkage = 0.01,
interaction.depth = 5,
n.trees = 5000,
n.minobsinnode = 10,
bag.fraction = 1,
train.fraction = 1)
# Predict with a gbm
predict.gbm(object = Model_gbm, n.trees = 1000, newdata = testdata, type = "response")