应用错误收集

我正在使用决策树构建回归器。我正在尝试找到最好的方法，以获得我要调整的四个主要参数的完美组合：成本复杂度，最大深度，最小拆分，最小存储桶大小

我知道有几种方法可以确定成本复杂度（CP）参数，但如何确定要使用的所有4种参数，以使最终结果具有最小的误差？

下面的可复制示例：

library(rpart)

set.seed(1234)
train_index <- sample(nrow(Boston),0.75*nrow(Boston))
boston_train <- Boston[train_index,]   
boston_test <- Boston[-train_index,]

prune_control <- rpart.control(maxdepth = 5, cp = 0.005, minbucket = 20,minsplit =20 ) #numbers are just representative having no real significance
boston.rpart <- rpart(medv ~ .,data = boston_train, method = "anova", control = prune_control)


train_pred <- predict(object = boston.rpart)
test_pred <- predict(boston.rpart, boston_test)

决策树回归器中的超参数

0 个答案: