我正在尝试进行二进制序列分类,并基于LSTM设计了一个网络
训练是在具有100个时间步长和64个隐藏单元的双向lstm网络上完成的。我的训练集是18万个样本,验证集是4万个样本。成本是使用的函数是二进制交叉熵,优化器是亚当。我使用的是128个样本的微型批次,在训练中,最初的几个时期我看到训练损失和验证损失都在减少。但是后来我看到,虽然我的训练损失继续减少,但验证损失却徘徊在一定范围内。我等了大约50个纪元,行为依旧。
由于验证损失没有增加,所以我不知道这是否表明过拟合的迹象?还是我应该等待更长的时期才能看到更彻底的行为?如果我尝试增加网络容量,则可以清楚地看到过度拟合,验证损失显着增加
非常感谢您的帮助