使用预测模型和TunePareto包测试和训练数据集

时间:2013-01-10 15:05:51

标签: r machine-learning

我正在尝试为具体问题选择最佳预测/分类模型。我被要求遵循的方法是:

  • 将数据分成测试和培训。
  • 使用训练数据运行具体模型,并使用10倍交叉验证对其进行评估,以获得该模型的最佳参数(评估给出的误差)。
  • 重复其他模型,直到我为每个选定的分类模型提供最佳配置。
  • 最后,我必须用最好的参数集重新运行每个模型,其中要训练的数据是“trainingdata”,结果给出的错误可能来自“testdata”(请注意测试数据没有直到现在才使用,以避免在最终比较中产生扭曲。)

我一直在使用TunePareto软件包,它有一个很好且易于运行的函数来运行一些分类模型(如Naive Byes或kNN)以及数据帧上的10倍CV。我提到的最后一个任务就出现了问题:我不知道如何使用特定的数据帧作为TunePareto的测试。有人可以帮我吗?

我搜索了一些例子,却一无所获。如果TunePareto不允许这样做,我很乐意听取替代方案。

谢谢!!!

1 个答案:

答案 0 :(得分:0)

From the documentation,函数tuneParetoClassifier似乎有一个参数testDataName,您可以在其中提供独立的测试数据集。以下是该函数的定义:

tuneParetoClassifier(name, classifier, classifierParamNames = NULL, predefinedClassifierParams = NULL, predictor = NULL, predictorParamNames = NULL, predefinedPredictorParams = NULL, useFormula = FALSE, formulaName = "formula", trainDataName = "x", trainLabelName = "y", testDataName = "newdata", modelName = "object", requiredPackages = NULL)