关于R中的rpart和gbm的一些问题

时间:2019-07-16 17:24:59

标签: r rpart gbm

我正在尝试使用rpart和gbm软件包对索赔频率进行建模。我对这些软件包有一些疑问。

  1. 在rpart模型中,收缩参数的目的/功能是什么?

  2. 在gbm模型中,我使用的权重正确吗?我得到一个输出(没有错误),但是我只是想确保我理解它是正确的。

  3. 在gbm模型中,我知道参数n.minobsinnode可以说每个节点至少应有10个观测值。但是,有没有办法说每个节点至少应有1个主张?我不希望有一个模型可以为某些观察预测索赔频率为0。

  4. 在RandomForest中,每个拆分均从n个变量中随机选择d个变量。但是在gbm模型中,每次拆分都会考虑所有n个变量吗?

  5. 在基于树的模型中,是否可以抵消一个变量(例如自付额)?

    回归树

    Model_tree <- rpart(cbind(duration, nclaims) ~ Var_1 + … + Var_n , 
                        data = data , 
                        method = "poisson",
                        parms = list(shrink = 1),control=rpart.control(minbucket = 10, cp = 0.00005 , maxdepth = 5))
    
    # Gradient Boosting Model       
    Model_gbm <- gbm(nclaims ~ Var_1 + … + Var_n,
                     data = data,
                     weights = duration,
                     distribution = "poisson",
                     cv.folds = 0,
                     shrinkage = 0.01,
                     interaction.depth = 5,
                     n.trees = 5000,
                     n.minobsinnode = 10,
                     bag.fraction = 1, 
                     train.fraction = 1)
    
    # Predict with a gbm
    predict.gbm(object = Model_gbm, n.trees = 1000, newdata = testdata, type = "response")
    

0 个答案:

没有答案