正如许多论文所指出的,为了更好地学习NN的学习曲线,最好以与高斯曲线相匹配的方式对数据集进行归一化。
这是否仅在我们使用sigmoid函数作为压缩函数时才适用? 如果不是什么偏差最适合tanh压扁功能?
答案 0 :(得分:2)
这是否仅在我们使用sigmoid函数作为压缩函数时才适用?
不,激活分布显然取决于激活功能,这就是为什么特别是对于基于sigmoid和relu的神经网络的初始化技术不同的原因。查看Xavier和He初始化in this question之间的区别。输入分布也是如此。
如果没有什么分区最适合tanh压扁功能?
但tanh
是缩放后的sigmoid
:
tanh(x) = 2⋅sigmoid(2x) - 1
因此,如果激活正常分布用于sigmoid激活,它们仍将正常分布为tanh。只有标度偏差和平均值偏移。所以相同的输入分配对于tanh来说是可行的。如果您希望获得相同的高斯方差,则可以按sqrt(2)
缩放输入,但实际上并不那么重要。