neural-network - 卷积神经网络中的“激活”，“激活梯度”，“权重”和“权重梯度”是什么？

卷积神经网络中的“激活”，“激活梯度”，“权重”和“权重梯度”是什么？

时间：2019-07-15 10:43:01

标签： neural-network deep-learning conv-neural-network

我刚刚读完the notes，以了解CNN上的斯坦福大学CS231n，并且有一个实时demo的链接；但是，我不确定演示中指的是“激活”，“激活梯度”，“权重”和“权重梯度”。下面的屏幕截图是从演示中复制的。

混淆点1

我首先对输入层的“激活”感到困惑。基于这些注释，我认为激活层是指CNN中的RELU层，它实际上告诉CNN应该点亮哪些神经元（使用RELU功能）。我不确定这与输入层之间的关系，如下所示。此外，为什么要显示两个图像？第一张图片似乎显示了提供给CNN的图片，但我无法区分第二张图片正在显示什么。

混淆点2

由于与上述相同的原因，我不确定此处显示的是“激活”和“激活梯度”。我认为“权重”显示卷积层中的16个过滤器的外观，但我不确定应该显示什么“权重梯度”。

困惑点3

我想我理解RELU层中“激活”指的是什么。在输出图像的每个值（像素）都应用了RELU功能之后，它将显示所有16个滤镜的输出图像，因此为什么16个图像中的每个图像都包含黑色（未激活）或白色阴影的像素（活性）。但是，我不明白“激活梯度”是指什么。

混淆点4

也不了解这里的“激活梯度”。

我希望通过了解此演示，我将对CNN有所了解

2 个答案:

答案 0 :(得分：1)

此问题与this问题类似，但不完全相同。另外，here's a link到带注释的ConvNetJS示例代码（完整文档here's a link）。您可以在演示页面顶部查看代码本身的代码。

activation function是一个函数，该函数接受一些输入并根据其是否达到某个“阈值”来输出一些值（此函数特定于每个不同的激活函数）。这取决于神经元的工作方式，它们在其中接受一些电输入，并且只有在达到某个阈值时才会激活。

混淆点1：：第一组图像显示原始输入图像（左侧彩色图像），而两个图像的右侧是经过激活功能后的输出。您真的不能解释第二张图像，因为它正在通过网络进行非线性和感知的随机非线性变换。

混淆点2：与上一点类似，“激活”是图像像素信息传递到的功能。 gradient本质上是激活函数的斜率。由于它显示了每个节点关注的图像中可能的区域，因此显得稀疏（即，仅在某些位置显示颜色）。例如，第一行的第六张图像的左下角有一些颜色；这可能表明激活功能发生了很大变化，以指示该区域中发生了一些有趣的事情。 article可能会消除一些关于权重和激活函数的混淆。并且this article对于每个步骤的操作都有非常好的视觉效果。

困惑点3：首先，这使我感到困惑，因为如果您考虑ReLu function，则对于正x斜率是1，而其他任何地方都为0。因此，采用激活函数（在这种情况下为ReLu）的梯度（或斜率）是没有意义的。 “最大激活”和“最小激活”值对于ReLu有意义：最小值为零，最大值为最大值。这直接来自ReLu的定义。 ~~为解释梯度值，我怀疑这些值已添加了一些高斯噪声和bias term of 0.1。~~ 编辑：梯度是指梯度的斜率。成本权重曲线如下所示。 y轴是损失值或使用x轴上的权重值 w 计算得出的误差。

_{图片来源https://i.ytimg.com/vi/b4Vyma9wPHo/maxresdefault.jpg}

困惑点4：参见上文。

答案 1 :(得分：0)

困惑点1 对于卷积层，每个层都有检测特征的职责。假设您要检测人脸，第一层将检测边缘，也许下一层将检测您的鼻子，依此类推。到最后一层，将检测到更复杂的特征。在第一层中，您看到的是从图像中检测到的第一层。 困惑点2 如果您浏览完全连接的层，我认为它们可能会显示出在反向传播期间获得的渐变。因为通过完全连接的层，它们仅获得灰黑色等颜色。 困惑点3 没有任何relu层。卷积后，您可以使用激活功能，并获得另一个矩阵，然后将其传递到另一层。刷新后，您得到了颜色。 困惑点4 上面也一样。

如果您一点都不懂，请告诉我。