我在数字识别方面遇到了问题。在特征提取部分,我必须使用一些卷积掩码(如此link中的图4.23)来获取特征映射和OUTPUT。但是,我不需要什么样的面具以及如何获得面膜? (在一些论文中,也许他们使用了反向传播,但我不知道如何使用它)你能告诉我这部分使用的面具,或者如何获得它们? 非常感谢你!任何建议都是欢迎!
答案 0 :(得分:0)
反向传播是在设置架构后训练神经网络。我从未使用神经网络来解决数字识别问题,但这里有关于手写数字识别的链接:link。它有一些代码示例。
祝你好运。答案 1 :(得分:0)
在CNN中,您通常将2D图像作为输入数据,比如说MNIST中的Black& White 28x28x1(水平,垂直,通道)数字。
然后你创建一个2d内核(作为一个3x3内核的例子),它在输入图像像素上滑动,定义了步幅(每步水平/垂直移动多少像素)和 padding (多少像素值为0,添加到所有边以使滑动内核中心能够在到达其边界时覆盖图像的每个像素)。
让我们说使用的内核= 3x3,Padding = 1,Stride = 1。
此内核在滑动时应用于卷积,也会生成28x28图像,其中每个像素是内核与输入图像的不同区域的卷积。
如果不是一个内核,而是创建其中的16个内核,在卷积后,您将获得16个28x28图像,每个图像代表图像的不同“图案”。 “模式”就是每个内核中的内容。
CNN通过监督培训中的反向传播,将自动学习放入每个内核的值。例如,一个内核可以具有格式
000
111个
000
意味着它会检测水平线。
我认为内核是你所指的掩码。
最后,所有16个28x28图像可以连接成一些特征,可以用作完全连接层的输入以获得分类输出。
请注意,这个解释非常简单,因为它会跳过一些段落(深层卷积,汇集等等),但我希望它足以让您产生怀疑。