标签: neural-network deep-learning softmax attention-model
我有一个N = W1 * Tanh(W2 * I)形式的神经网络,其中我是输入向量/矩阵。当我学习这些权重时,输出具有某种形式。但是,当我添加一个归一化层时,例如,N' = Softmax( W1 * Tanh(W2 * I) )然而,在N'的输出向量中,单个元素接近1而其余元素几乎为零。这种情况不仅适用于SoftMax(),还适用于任何规范化层。这样的问题有没有标准的解决方案?
N = W1 * Tanh(W2 * I)
N' = Softmax( W1 * Tanh(W2 * I) )
答案 0 :(得分:0)
这是softmax function的行为。也许你需要的是一个sigmoid函数。