Question

我正在尝试为具体问题选择最佳预测/分类模型。我被要求遵循的方法是：

将数据分成测试和培训。
使用训练数据运行具体模型，并使用10倍交叉验证对其进行评估，以获得该模型的最佳参数（评估给出的误差）。
重复其他模型，直到我为每个选定的分类模型提供最佳配置。
最后，我必须用最好的参数集重新运行每个模型，其中要训练的数据是“trainingdata”，结果给出的错误可能来自“testdata”（请注意测试数据没有直到现在才使用，以避免在最终比较中产生扭曲。）

我一直在使用TunePareto软件包，它有一个很好且易于运行的函数来运行一些分类模型（如Naive Byes或kNN）以及数据帧上的10倍CV。我提到的最后一个任务就出现了问题：我不知道如何使用特定的数据帧作为TunePareto的测试。有人可以帮我吗？

我搜索了一些例子，却一无所获。如果TunePareto不允许这样做，我很乐意听取替代方案。

谢谢!!!

Answer 1

From the documentation，函数tuneParetoClassifier似乎有一个参数testDataName，您可以在其中提供独立的测试数据集。以下是该函数的定义：

tuneParetoClassifier(name, classifier, classifierParamNames = NULL, predefinedClassifierParams = NULL, predictor = NULL, predictorParamNames = NULL, predefinedPredictorParams = NULL, useFormula = FALSE, formulaName = "formula", trainDataName = "x", trainLabelName = "y", testDataName = "newdata", modelName = "object", requiredPackages = NULL)

使用预测模型和TunePareto包测试和训练数据集

1 个答案: