在增强数据集中生成测试集

时间:2017-02-02 07:43:38

标签: machine-learning scikit-learn caffe

我手边有一个图像检索任务。我有一个数据集,每个类没有很多图像,所以我最终增加了数据集(类中每个图像3个副本),并得到了Keras blog的一些灵感。我使用train_test_split中的sklearn方法来分割从扩充数据集生成的数据集。现在因为这是一个随机分割,当测试时,有可能正在测试用于测试的图像与其自身的增强对应图像,例如针对其原始图像测试的翻转和略微倾斜的图像。在这种情况下,结果可能会有偏差吗?有没有办法克服这个问题,除了获取仅用于测试的新数据。

1 个答案:

答案 0 :(得分:4)

是的,这被称为“泄漏”,除非数据增强变换如此激进以至于生成的图像可能与真实的测试集类似,那么在进行增强之前更好地分割训练/测试集,并且仅在火车组中进行增强。