验证集的指标很奇怪

时间:2020-01-30 06:15:10

标签: validation deep-learning pytorch crop training-data

我正在做一个有关深度学习图像处理的项目,我面临的问题是,验证数据集的指标与训练数据集的指标有很大不同。区别如下所示。
image1

对于上方的图(训练数据集),绿线,蓝线,红线分别表示ms-ssim,生成器损耗和鉴别器损耗。
对于下图(验证数据集),蓝色,灰色,橙色线分别表示ms-ssim,生成器损耗和鉴别器损耗。

这两个数据集之间的唯一区别是验证集未处理(1200 * 800),而训练集已裁剪(256 * 256)。

接下来,我尝试使用相同的设置来裁剪验证集。正如我所猜测的那样,两个数据集的指标变得相似。但是,由于未裁剪真实图像(测试数据集),因此这些指标似乎没有用。

我的问题是:

  1. 为什么“播种”可以起到这种作用?
  2. 如何在不裁剪验证集的情况下使两个集合的指标相似?
  3. 看起来像过拟合吗?

1 个答案:

答案 0 :(得分:0)

了解确切的任务是有帮助的。您正在尝试解决什么,您的数据如何...。

通常,它确实会有所作为。您将1200x800作为原始输入大小,并将其裁剪为256x256。因此,最后您从1200x800的图像中提取了256x256的区域。您甚至在随机或具有某种逻辑的情况下还能在什么地方裁剪?

这样,您可以完全更改数据分布。原始图像将包含更多信息。根据裁剪的方式,网络可能会看到以前从未见过的信息。您还可以从平方输入变成矩形输入。在不同的输入大小下,许多模型甚至根本不起作用。

如果您只能在裁剪后的图像上进行训练,则也必须裁剪验证和测试集,以便获得可比的结果。

仅从所提供的信息来看,它看起来根本不像是过度拟合,更像是图像裁剪带来的大域偏移问题。