为什么LeNet5使用32×32图像作为输入?

时间:2015-02-15 11:09:30

标签: machine-learning deep-learning

我知道mnist数据集中的手写数字图像是28×28,但为什么LeNet5中的输入是32×32?

1 个答案:

答案 0 :(得分:0)

您的问题已在original paper中解答:
卷积步骤总是比前一层的特征映射更小的输入(这适用于第一层 - 输入 - 也是如此):

  

层C1是具有6个特征映射的卷积层。   每个要素图中的每个单位都连接到输入中的5x5邻域。要素图的大小为28x28   这可以防止输入连接脱落   边界。

这意味着在32x32输入上使用5x5邻域,您将获得6个大小为28x28的特征映射,因为您将不会在图像边界处使用像素(您将始终使用这些数字的余数)。

当然他们可能会对第一层有例外。他们仍在使用32x32图像的原因是:

  

输入是32x32像素的图像。这个要大得多   比数据库中最大的字符(最多20x20   以28x28字段为中心的像素)。原因是它是   希望潜在的独特功能,如中风   端点或角可以出现在最高级特征探测器的感受野的中心。