如何执行训练,测试和验证集来预测

时间:2017-04-29 09:19:38

标签: r validation machine-learning classification training-data

我有一个非常大的数据集,我正在尝试使用R构建分类模型。 但是我需要使用火车,测试和验证装置。但我对执行此操作的方式感到有些困惑。例如,我使用火车集构建了一个树,然后使用测试集计算了预测。但我相信我应该使用火车和测试装置来最好地调整树,然后使用验证集进行验证。我怎样才能做到这一点?

library(rpart)
part.installed <- rpart(TARGET ~  RS_DESC+SAP_STATUS +                         
ACTIVATION_STATUS+ROTUL_STATUS+SIM_STATUS+RATE_PLAN_SEGMENT_NORM,
trainSet, method="class")

part.predictions <- predict(part.installed, testSet, type="class")

(P.S树只是一个例子。它可能是另一种分类算法)

1 个答案:

答案 0 :(得分:0)

通常术语如下:

  1. 训练集用于构建分类器
  2. 验证集用于重复调整算法超参数 。所以这里会有一些过度拟合,但这就是为什么还有另一个阶段:
  3. 在分类器 final 之前,不得触摸测试集以防止过度拟合。如果您将模型投入生产,它可以估计真实的准确度