正如我所注意到的,在卷积神经网络(例如AlexNet)的许多流行架构中,人们使用具有几乎相同维度的多个完全连接的层来收集对早期层中先前检测到的特征的响应。
为什么我们不只使用一个FC呢?为什么完全连接的层的分层排列可能更有用?
答案 0 :(得分:2)
因为某些功能(例如XOR)无法通过单个图层建模。在这种类型的体系结构中,卷积层计算局部特征,然后完全连接的输出层将这些局部特征组合在一起以得出最终输出。因此,您可以将完全连接的层视为半独立的将要素映射到输出,如果这是一个复杂的映射,那么您可能需要多层的表达能力。
答案 1 :(得分:1)
实际上它不再流行/正常。 2015+网络(例如Resnet,Inception 4)使用全局平均合并(GAP)作为最后一层+ softmax,它提供相同的性能和更小的模型。 VGG16中的最后2层大约是网络中所有参数的80%。但回答你的问题是使用2层MLP进行分类,并考虑网络的其余部分是特征生成。 1层是具有全局最小和简单属性的正常逻辑回归,2层给出了非线性和SGD使用的一些有用性。