我正在尝试使用CNN对图像进行分类,据我所知,ReLu是每个卷积层中激活单元的流行选择。根据我的理解,ReLU会保留所有正图像强度并将负像转换为0。对我来说,这就像处理步骤,而不是真正的“解雇”步骤 那么在这里使用ReLU的目的是什么?
答案 0 :(得分:1)
首先,它引入了非线性。没有它,整个CNN只不过是一系列矩阵乘法和最大汇集(所以你不能近似并学习复杂的函数)。但我想你会问为什么ReLU特别受欢迎。我想到的一个原因是其他激活函数,如tanh
或sigmoids都有梯度饱和问题。这意味着一旦它们输出的值接近最大值,它们的渐变就变得微不足道了(只需看看它们的图形,例如<{em}在wikipedia上)并且它们会在反向传播时杀死渐变。 ReLU没有这个问题。此外,ReLU为负值生成零的事实意味着网络生成的中间表示往往更稀疏。