我知道mnist数据集中的手写数字图像是28×28,但为什么LeNet5中的输入是32×32?
答案 0 :(得分:0)
您的问题已在original paper中解答:
卷积步骤总是比前一层的特征映射更小的输入(这适用于第一层 - 输入 - 也是如此):
层C1是具有6个特征映射的卷积层。 每个要素图中的每个单位都连接到输入中的5x5邻域。要素图的大小为28x28 这可以防止输入连接脱落 边界。
这意味着在32x32输入上使用5x5邻域,您将获得6个大小为28x28的特征映射,因为您将不会在图像边界处使用像素(您将始终使用这些数字的余数)。
当然他们可能会对第一层有例外。他们仍在使用32x32图像的原因是:
输入是32x32像素的图像。这个要大得多 比数据库中最大的字符(最多20x20 以28x28字段为中心的像素)。原因是它是 希望潜在的独特功能,如中风 端点或角可以出现在最高级特征探测器的感受野的中心。