Theano中渐变的纳米误差

时间:2017-01-05 14:21:29

标签: theano

当我构建这样的计算时

p_1 = 1 / (1 + T.exp(-T.dot(x, (w1-w2)) - (b1-b2)))

w1,w2,b1,b2是参数。我构造了一个交叉熵作为损失函数。

但是当我采用渐变

T.grad(loss,[w1, b1, w2, b2])

所有得到的梯度都是纳米。

这个问题有什么可能的原因吗?有什么解决方案吗?

提前谢谢!

1 个答案:

答案 0 :(得分:0)

我得到了解决方案。基本上数值不稳定。通过将log sigmoid更改为softplus解决了这个问题。