python:在验证集

时间:2017-05-13 15:33:24

标签: python scikit-learn

理论上说将数据集分成三组:训练集训练模型,验证集调整参数,测试集评估性能。

然而,已经有GridSearchCV对训练集进行交叉验证以找到最佳参数。但是如何使用我自己的验证集来调整参数?

我有10个班级,对于列车数据,每个班级有1017个样本。 在验证和测试集中,每个类有300个样本。

我已经训练了我的火车分类数据。

clf = RandomForestClassifier(random_state=97)
clf.fit(train, np.array(train_lab)) 

如何使用验证集调整参数?我发现仅使用GridSearchCV作为交叉验证的示例。但是我想避免它并在我自己的验证集上调整模型。我该怎么做?

1 个答案:

答案 0 :(得分:1)

您可以将交叉验证对象传递到GridSearchCV。传入PredefinedSplit对象,可以让您决定培训和验证集是什么。