使用分区基准数据集进行机器学习参数调整

时间:2018-09-29 09:45:33

标签: python machine-learning parameters scikit-learn svm

我知道这将是非常基本的,但是我真的很困惑,我想更好地了解参数调整。

我正在处理一个基准数据集,该数据集已经划分为三个部分,分别进行训练,开发和测试,我想使用GridSearchCV中的sklearn调整分类器参数。

什么是调整参数的正确分区?是发展还是训练?

我在文献中看到研究人员提到他们“在开发阶段使用GridSearchCV调整参数”,发现了另一个例子here

这是否意味着他们在培训分组中接受培训,然后在开发分组中进行测试?还是ML从业人员通常意味着他们完全在开发阶段执行GridSearchCV?

我非常感谢您的澄清。谢谢,

1 个答案:

答案 0 :(得分:0)

通常,在三向拆分中,您使用训练集训练模型,然后在开发集(也称为验证集)上对模型进行验证,以调整超参数,然后在所有调整完成后执行最终在未见过的测试集(也称为评估集)上对模型进行评估。

在双向拆分中,您只有一个训练集和一个测试集,因此您可以对同一测试集执行调整/评估。