我正在使用来自LSTM层和CNN层的关节损失来训练用于检测句子相似性(复述检测)的网络。最终成本只是这两层的个人损失(可能性损失)的总和。
两个句子相似的概率:sigmoid(vec1TWvec2 + b)
,其中vec1和vec2是两个句子的向量表示,W和b是训练期间要学习的权重和偏差。
最终损失= LSTM层损失+ CNN层损失。
当我在32个随机句子的样本数据上训练系统时,我的模型收敛良好。
然而,在使用完整数据时,损失变得停滞不前 sigmoid值非常接近0。
我的网络参数:
任何人都可以提供关于完整数据培训可能存在的问题的任何提示,即使它适用于小型数据集吗?是否存在消失梯度的问题?