当我构建这样的计算时
p_1 = 1 / (1 + T.exp(-T.dot(x, (w1-w2)) - (b1-b2)))
w1,w2,b1,b2是参数。我构造了一个交叉熵作为损失函数。
但是当我采用渐变
时T.grad(loss,[w1, b1, w2, b2])
所有得到的梯度都是纳米。
这个问题有什么可能的原因吗?有什么解决方案吗?
提前谢谢!
答案 0 :(得分:0)
我得到了解决方案。基本上数值不稳定。通过将log sigmoid更改为softplus解决了这个问题。