数据集值为sigmoid和tanh的分布

时间:2018-01-24 22:31:40

标签: neural-network dataset artificial-intelligence normalization sigmoid

正如许多论文所指出的,为了更好地学习NN的学习曲线,最好以与高斯曲线相匹配的方式对数据集进行归一化。

这是否仅在我们使用sigmoid函数作为压缩函数时才适用? 如果不是什么偏差最适合tanh压扁功能?

1 个答案:

答案 0 :(得分:2)

  

这是否仅在我们使用sigmoid函数作为压缩函数时才适用?

不,激活分布显然取决于激活功能,这就是为什么特别是对于基于sigmoid和relu的神经网络的初始化技术不同的原因。查看Xavier和He初始化in this question之间的区别。输入分布也是如此。

  

如果没有什么分区最适合tanh压扁功能?

tanh是缩放后的sigmoid

tanh(x) = 2⋅sigmoid(2x) - 1

因此,如果激活正常分布用于sigmoid激活,它们仍将正常分布为tanh。只有标度偏差和平均值偏移。所以相同的输入分配对于tanh来说是可行的。如果您希望获得相同的高斯方差,则可以按sqrt(2)缩放输入,但实际上并不那么重要。