卷积神经网络中的“激活”,“激活梯度”,“权重”和“权重梯度”是什么?

时间:2019-07-15 10:43:01

标签: neural-network deep-learning conv-neural-network

我刚刚读完the notes,以了解CNN上的斯坦福大学CS231n,并且有一个实时demo的链接;但是,我不确定演示中指的是“激活”,“激活梯度”,“权重”和“权重梯度”。下面的屏幕截图是从演示中复制的。

混淆点1

我首先对输入层的“激活”感到困惑。基于这些注释,我认为激活层是指CNN中的RELU层,它实际上告诉CNN应该点亮哪些神经元(使用RELU功能)。我不确定这与输入层之间的关系,如下所示。此外,为什么要显示两个图像?第一张图片似乎显示了提供给CNN的图片,但我无法区分第二张图片正在显示什么。

enter image description here

混淆点2

由于与上述相同的原因,我不确定此处显示的是“激活”和“激活梯度”。我认为“权重”显示卷积层中的16个过滤器的外观,但我不确定应该显示什么“权重梯度”。

enter image description here

困惑点3

我想我理解RELU层中“激活”指的是什么。在输出图像的每个值(像素)都应用了RELU功能之后,它将显示所有16个滤镜的输出图像,因此为什么16个图像中的每个图像都包含黑色(未激活)或白色阴影的像素(活性)。但是,我不明白“激活梯度”是指什么。

enter image description here

混淆点4

也不了解这里的“激活梯度”。

enter image description here

我希望通过了解此演示,我将对CNN有所了解

2 个答案:

答案 0 :(得分:1)

此问题与this问题类似,但不完全相同。另外,here's a link到带注释的ConvNetJS示例代码(完整文档here's a link)。您可以在演示页面顶部查看代码本身的代码。

activation function是一个函数,该函数接受一些输入并根据其是否达到某个“阈值”来输出一些值(此函数特定于每个不同的激活函数)。这取决于神经元的工作方式,它们在其中接受一些电输入,并且只有在达到某个阈值时才会激活。

混淆点1::第一组图像显示原始输入图像(左侧彩色图像),而两个图像的右侧是经过激活功能后的输出。您真的不能解释第二张图像,因为它正在通过网络进行非线性和感知的随机非线性变换。

混淆点2:与上一点类似,“激活”是图像像素信息传递到的功能。 gradient本质上是激活函数的斜率。由于它显示了每个节点关注的图像中可能的区域,因此显得稀疏(即,仅在某些位置显示颜色)。例如,第一行的第六张图像的左下角有一些颜色;这可能表明激活功能发生了很大变化,以指示该区域中发生了一些有趣的事情。 article可能会消除一些关于权重和激活函数的混淆。并且this article对于每个步骤的操作都有非常好的视觉效果。

困惑点3:首先,这使我感到困惑,因为如果您考虑ReLu function,则对于正x斜率是1,而其他任何地方都为0。因此,采用激活函数(在这种情况下为ReLu)的梯度(或斜率)是没有意义的。 “最大激活”和“最小激活”值对于ReLu有意义:最小值为零,最大值为最大值。这直接来自ReLu的定义。 为解释梯度值,我怀疑这些值已添加了一些高斯噪声和bias term of 0.1 编辑:梯度是指梯度的斜率。成本权重曲线如下所示。 y轴是损失值或使用x轴上的权重值 w 计算得出的误差。

图片来源https://i.ytimg.com/vi/b4Vyma9wPHo/maxresdefault.jpg

困惑点4:参见上文。

答案 1 :(得分:0)

困惑点1 对于卷积层,每个层都有检测特征的职责。假设您要检测人脸,第一层将检测边缘,也许下一层将检测您的鼻子,依此类推。到最后一层,将检测到更复杂的特征。在第一层中,您看到的是从图像中检测到的第一层。 困惑点2 如果您浏览完全连接的层,我认为它们可能会显示出在反向传播期间获得的渐变。因为通过完全连接的层,它们仅获得灰黑色等颜色。 困惑点3 没有任何relu层。卷积后,您可以使用激活功能,并获得另一个矩阵,然后将其传递到另一层。刷新后,您得到了颜色。 困惑点4 上面也一样。

如果您一点都不懂,请告诉我。

相关问题