答案 0 :(得分:5)
目的是向网络添加非线性行为,没有它可以表示的函数数量较少,如果没有非线性激活函数,网络是完全线性的,这不是很对大多数问题都有用。
添加非线性激活的每个层也有助于网络输出的非线性行为。这是添加更多层提高准确性的一个原因,因为网络可以更好地表示不同的功能。
答案 1 :(得分:0)
根据最新研究,应该在深层神经网络的隐藏层中使用ReLU函数(如果面对消失的梯度,则应使用泄漏的reLU)。 使用此功能,输出层必须具有用于分类的softmax或用于回归的线性激活。
我是从this精彩视频中学到的。