我想知道我们何时使用Bagging进行分类,可以调整哪些参数,我们可以使用交叉验证来调整它吗?
在Bagging function in R中,它表示我们可以使用nbagg来更改引导复制的数量。并使用rpart.control。
这是我的代码
bagging(income ~., data = training3, coob= T)
答案 0 :(得分:2)
何时在分类中使用装袋?
Bagging主要是从单个训练集中重复采样,以生成x个不同的自举训练数据集。然后我们在这些训练集上训练我们的方法并在回归的情况下平均所有预测,我们在分类的情况下使用投票。套袋有助于减少结果的差异,因此在您的结果差异很大的情况下,您经常选择套袋,通常套袋技术的表现优于随机森林和提升。
可以调整哪些参数,我们可以使用交叉验证进行调整吗?
nbagg: nbagg参数用于控制投票决策树的数量 在整体中(默认值为25)。根据学习任务的难度和培训数据的数量,增加这个数字可能会提高模型的性能,但它需要额外的 计算费用。
cp: cp是复杂度参数,当正确调整得到修剪树时,复杂度参数(cp)用于控制决策树的大小并选择最佳树大小。如果从当前节点向决策树添加另一个变量的成本高于cp的值,那么树构建不会继续,您可以点击并试用以绘制它并查看适合您的内容。
我们可以使用交叉验证吗?
是的,你可以,你应该使用照顾包来做它(只是为了让你的生活变得简单)
library(caret)
set.seed(1729)
cntrl <- trainControl(method = "cv", number = 10)
train(dependent_variable ~ ., data = mydata, method = "treebag",
trControl = cntrl)