输入和ConvNet的大小

时间:2018-03-08 06:24:11

标签: image neural-network deep-learning conv-neural-network

在关于卷积神经网络的CS231n课程中,ConvNet note

  
      
  • INPUT [32x32x3]将保存图像的原始像素值,在本例中为宽度为32,高度为32且具有三个颜色通道R,G,B的图像。

  •   
  • CONV层将计算连接到输入中的局部区域的神经元的输出,每个神经元计算其权重与它们在输入体积中连接的小区域之间的点积。如果我们决定使用12个过滤器,这可能导致诸如[32x32x12]的音量。

  •   

从文档中,我了解INPUT将包含32(宽)x 32(高)x 3深度的图像。但后来在Conv层的结果中,它是[32x32x12] if we decided to use 12 filters. 3与图像的深度在哪里?

请帮帮我,谢谢你。

2 个答案:

答案 0 :(得分:1)

它会“分布”到每个要素图(使用过滤器进行卷积后的结果)。

在考虑12个过滤器之前,只需考虑一个。也就是说,您正在使用[filter_width * filter_height * input_channel_number]的过滤器应用卷积。并且因为你的input_channel_number与滤波器通道相同,所以你基本上在每个输入通道上独立地应用输入信道的2d卷积的input_channel_number,然后将它们加在一起。结果是2D特征图。

现在你可以重复12次以获得12个特征图并将它们堆叠在一起以获得[32 x 32 x 12]特征量。这就是为什么你的滤波器大小是带有[filter_width * filter_height * input_channel_number * output_channel_number]的4D向量,在你的情况下这应该是[3x3x3x12](请注意不同框架之间的顺序可能不同,但操作是相同的)< / p>

答案 1 :(得分:0)

所以,这很有趣。我再次阅读了该文件,并找到了一些“向下滚动”的答案。以前,我认为过滤器是32 x 32(无深度)。事实是:

  

ConvNet第一层上的典型滤镜可能具有5x5x3的尺寸(即5像素的宽度和高度,以及3,因为图像具有深度3,颜色通道)。

在前进过程中,我们在输入体积的宽度和高度上滑动(更准确地说,卷积)每个滤波器,并计算滤波器条目和任何位置输入之间的点积。