问题在于卷积神经网络的数学细节。假设网络的结构(其目标是图像分类)就是这样
从我到目前为止的读数,我已经知道每个6x5x5矩阵都连接到FCN-1。我有两个问题,这两个问题都与一层输出到另一层的输出方式有关。
答案 0 :(得分:5)
一般来说,某些CNN(如VGG 16,VGG 19)所做的是,它们将MAX_POOL层的3D张量输出展平,因此在您的示例中,FC层的输入将变为(None,150)
,但其他CNN(如ResNet50)使用全局最大函数来获得6x1x1
(输出张量的维数),然后将其展平(将变为(None,6)
)并馈入FC层。
This link has an image to a popular CNN architecture called VGG19
要回答您的查询,其中展平会破坏空间排列,当您展平图像时,假设像素位置为 X ij (即第i行,第j列= { {1}},其中n是图像的宽度)然后基于矩阵表示我们可以说它的上邻居是 X i-1,j {{1对于其他邻居来说,等等,因为像素及其相邻像素之间存在共生关系,FC层将自动调整权重以反映该信息。
因此,您可以将n*i+j
图层组视为特征提取图层,其输出张量(类似于矢量中的尺寸/特征)将被馈送到网络末端的标准ANN中。