分类器网络的隐藏层使用sigmoid或其他激活函数来引入非线性并对数据进行规范化,但是最后一层是否将sigmoid与softmax结合使用?
我有一种感觉并不重要,网络将以任何方式进行训练 - 但是应该单独使用softmax层吗?或者首先应用sigmoid函数?
答案 0 :(得分:2)
通常,在softmax输出层之前的附加sigmoid激活是没有意义的。由于sigmoid函数是a partial case of softmax,它将连续两次将值压缩到[0, 1]
区间,这将得到几乎统一的输出分布。当然,你可以通过这种方式传播,但效率会低得多。
顺便说一下,如果你选择不使用ReLu,tanh绝对是a better activation function而不是sigmoid。