我已经看了很多关于CNN常规处理多个频道的方式的解释(例如RGB图像中的3个)并且仍然处于亏损状态。
当一个5x5x3滤镜(比方说)应用于RGB图像的补丁时,完全会发生什么?事实上,3个不同的2D卷积(具有独立权重)是否分别发生在每个通道上?然后将结果简单地加在一起以产生最终输出以传递到下一层?还是一个真正的3D卷积?
答案 0 :(得分:3)
此图片来自Andrew Ng的deeplearning.ai课程。 6 X 6 X 3 - 其中3对应3个颜色通道。 6 X 6是图像的高度和宽度。 对于卷积步骤,我们将输入图像与3 X 3 X 3滤波器/内核进行卷积。输入图像和滤镜都有3层。 (对于输入图像和滤波器,大多数都是相同的。)输出为4 X 4 X 1。 3 X 3 X 3为您提供27个功能/参数,您可以将它们与相应的红色,绿色和蓝色通道相乘。最后将所有这些数字相加,得到4 X 4输出图像中[0,0]的值。现在移动输入图像的黄色立方体并将其向右滑动1个框,一旦到达右端,您将立方体向下滑动一行并继续乘法以填充4 X 4输出。建议你拿一个纸和笔,在所有立方体中填充随机值以输入和内核并解决乘法。
有关详细信息,请在youtube上观看这些讲座。 https://www.youtube.com/watch?v=KTB_OFoAQcc&index=6&list=PLkDaE6sCZn6Gl29AoE31iwdVwSG-KnDzF