损失不减少:在几次迭代后,训练期间所有sigmoid值接近0

时间:2017-06-29 08:34:12

标签: neural-network deep-learning convolution lstm

我正在使用来自LSTM层和CNN层的关节损失来训练用于检测句子相似性(复述检测)的网络。最终成本只是这两层的个人损失(可能性损失)的总和。

两个句子相似的概率:sigmoid(vec1TWvec2 + b),其中vec1和vec2是两个句子的向量表示,W和b是训练期间要学习的权重和偏差。

最终损失= LSTM层损失+ CNN层损失。

当我在32个随机句子的样本数据上训练系统时,我的模型收敛良好。

  

然而,在使用完整数据时,损失变得停滞不前   sigmoid值非常接近0。

我的网络参数:

  • Gradient Descent Optimizer,学习率为0.01或0.001。
  • Hidden State Dim 200.
  • Word Embedding Dim 300。
  • 将标准的梯度剪切为5。
  • 1层卷积,包含200个内核,后跟1层最大池。

任何人都可以提供关于完整数据培训可能存在的问题的任何提示,即使它适用于小型数据集吗?是否存在消失梯度的问题?

0 个答案:

没有答案