决策树回归器中的超参数

时间:2020-09-10 11:33:17

标签: r machine-learning decision-tree hyperparameters model-validation

我正在使用决策树构建回归器。 我正在尝试找到最好的方法,以获得我要调整的四个主要参数的完美组合: 成本复杂度,最大深度,最小拆分,最小存储桶大小

我知道有几种方法可以确定成本复杂度(CP)参数,但如何确定要使用的所有4种参数,以使最终结果具有最小的误差?

下面的可复制示例:

library(rpart)

set.seed(1234)
train_index <- sample(nrow(Boston),0.75*nrow(Boston))
boston_train <- Boston[train_index,]   
boston_test <- Boston[-train_index,]

prune_control <- rpart.control(maxdepth = 5, cp = 0.005, minbucket = 20,minsplit =20 ) #numbers are just representative having no real significance
boston.rpart <- rpart(medv ~ .,data = boston_train, method = "anova", control = prune_control)


train_pred <- predict(object = boston.rpart)
test_pred <- predict(boston.rpart, boston_test)

0 个答案:

没有答案