我正在使用决策树构建回归器。 我正在尝试找到最好的方法,以获得我要调整的四个主要参数的完美组合: 成本复杂度,最大深度,最小拆分,最小存储桶大小
我知道有几种方法可以确定成本复杂度(CP)参数,但如何确定要使用的所有4种参数,以使最终结果具有最小的误差?
下面的可复制示例:
library(rpart)
set.seed(1234)
train_index <- sample(nrow(Boston),0.75*nrow(Boston))
boston_train <- Boston[train_index,]
boston_test <- Boston[-train_index,]
prune_control <- rpart.control(maxdepth = 5, cp = 0.005, minbucket = 20,minsplit =20 ) #numbers are just representative having no real significance
boston.rpart <- rpart(medv ~ .,data = boston_train, method = "anova", control = prune_control)
train_pred <- predict(object = boston.rpart)
test_pred <- predict(boston.rpart, boston_test)