应用错误收集

培训CNN的数据增强因素

时间：2016-02-09 06:06:46

标签： neural-network deep-learning conv-neural-network

我训练CNN，许多作者提到从原始图像的中心随机裁剪图像，数据增加2048倍。任何人都可以详细说明它是什么意思吗？

1 个答案:

答案 0 :(得分：2)

我相信你指的是ImageNet Classification with Deep Convolutional Neural Networks数据增强方案。他们的数据增强方案的2048x方面如下：

首先将所有图像重新缩小为256x256
然后，对于每个图像，他们采取随机224x224大小的作物。
对于每个随机224x224裁剪，它们还通过对这些224x224补丁进行水平反射来进一步增强。

所以我猜他们如何得到2048x数据增强因子：

256x256图像有32 * 32 = 1024种可能的224x224尺寸图像裁剪。为了看到这一点，只需观察256-224 = 32，因此我们的作物有32个可能的水平指数和32个可能的垂直指数。
每个作物的水平反射都会增加一倍。
1024 * 2 = 2048.

问题的中心裁剪方面源于原始图像的大小不同。所以作者所做的是他们重新缩放每个矩形图像，使得最短边的尺寸现在为256，并且他们从中获取中心裁剪，从而将整个数据集重新缩放到256x256。一旦他们将所有图像重新调整为256x256，他们就可以执行上述（最多）-2048x数据增强方案。