我目前正在测试LSTM网络。我在反向传播之前和反向传播之后的训练示例上打印了其预测损失。有意义的是,丢失后的数据应始终小于丢失前的值,因为网络只是针对该示例进行了训练。
但是,我注意到在第100个训练示例附近,网络在反向传播之后开始提供比在反向传播训练示例之前更不准确的预测。
是否期望网络始终具有比后损失更高的损失?如果是这样,是否有任何原因会发生这种情况?
要清楚,对于前一百个示例,网络似乎正在正确地训练并且运行良好。
答案 0 :(得分:0)
您的数据集是否被改组? 否则,可能是前99个示例预测了一个类。 如果不是,那么LSTM可能很难训练。尝试更改超级参数,我也建议您从SimpleRNN,GRU然后是LSTM开始,因为有时简单的网络可能就可以解决问题。