标签: optimization deep-learning pytorch log-likelihood
我误读了PyTorch的{{1}},并意外地将模型的概率传递给了损失函数,而不是模型的对数概率,这正是函数所期望的。但是,当我在此误用损失函数下训练模型时,模型(a)学习速度更快,(b)学习得更稳定,(b)损失更低,并且(d)在分类任务上表现更好。
我没有一个简单的工作示例,但我很好奇是否有人经历过或知道为什么会这样?有任何可能的假设吗?
我的一个假设是,关于误用损失函数的梯度更稳定,因为导数未按1 /模型输出概率进行缩放。