我正在学习卷积神经网络并试图弄清楚数学计算是如何发生的。假设有一个输入图像有3个通道(RGB),因此图像的形状为28 * 28 * 3。考虑应用尺寸为5 * 5 * 3的6个滤波器和下一层的步幅1。因此,我们将在下一层获得24 * 24 * 6。由于输入图像是RGB图像,每个滤波器的24 * 24图像如何被解释为RGB图像,即每个滤波器内部是否构建了尺寸为24 * 24 * 3的图像?
答案 0 :(得分:2)
在应用第一个卷积层后,您再也不能将其视为RGB。 [5, 5, 3]
卷积从5*5*3 = 75
个浮点数(25个像素,每个有3个通道)获取所有信息,并根据网络为该过滤器训练的任何参数将它们混合在一起。
在许多图像识别任务中,第一层经常学习边缘检测器和锐化蒙版等内容。例如,请参阅this visualization of the layers of VGG16。
但是输出本身就是......信息。或者,更确切地说,深度通道的含义将取决于网络的学习方式。可能会有一些有意义的东西可以区分深度通道(以及它们中的不同值是什么意思),但如果不尝试将其直观化,则不太可能是直观的。我不知道一个独立可视化深度通道的项目,但有人可能有。