scikit-learn中的测试集分区

时间:2013-12-03 13:36:25

标签: scikit-learn

http://scikit-learn.org/stable/auto_examples/mixture/plot_gmm_classifier.html的“plot_gmm_classifier.py”中,训练和测试数据定义如下。

skf = StratifiedKFold(iris.target, n_folds=4)
# Only take the first fold.
train_index, test_index = next(iter(skf))

X_train = iris.data[train_index]
y_train = iris.target[train_index]
X_test = iris.data[test_index]
y_test = iris.target[test_index]

我发现在y_test = iris.target [test_index]中为测试数据提供了标签。如果是这样的话,为什么呢?我们不应该标记测试数据。如果不是这种情况,还会发生什么呢?

1 个答案:

答案 0 :(得分:2)

在此特定示例中,使用测试数据标签,以便可以评估方法的准确性(通过将预测的测试标签与真实的测试标签进行比较)以及在图表上绘制真实标签。