据说使用卷积层而不是FC层不会减少。可训练的参数。
对此我有疑问。以最大池化后VGG 16的最终卷积层为例 它的形状是7x7x512。
当我将其展平时,我得到= 25088的输出。 现在这些已完全连接到4096个神经元层。
此阶段的总参数= 25088 * 4096 + 4096 = 102,764,544。
现在假设我将FC层替换为Conv层。
所以我需要将形状层设置为1x1x4096
所以我采用4096个7x7x512大小的过滤器。
参数总数= 7x7x512x4096 + 4096 = 102,764,544。
所以这些完全相等。
现在,让我说我在FC层上又增加了一个FC层。
总编号此参数中的= 4096x4096 + 4096 = 16,781,312
相反,如果我添加另一个卷积层,它将具有4096个滤镜,每个滤镜的大小为1x1x4096,我没有。的参数= 1x1x4096x4096 + 4096 = 16,781,312。
我的问题是不。训练参数减少?