在预训练word2vec嵌入的情况下,损失函数如何工作,因为在训练过程中权重未更新。那么反向传递如何工作以及如何更新以进行预测?
答案 0 :(得分:0)
损失是对概率输出和实际类别的计算,该计算不依赖于任何后续层的训练状态。按状态,我的意思是 trainable == True 或 trainable == False 。
仅当状态为 trainable == True 时,损耗的反向传播才与学习速率结合使用来调整层的权重。如果在不可训练层之间存在可训练层,则错误仍然可以通过这些层。每个训练步骤之后,模型中任何可训练的图层都会更新。
使用Word2Vec时,权重将导入到嵌入层中,并且许多次被“冻结”,以便在训练其余参数时不会更新。但是,在此过程快要结束时,有时解冻这些砝码可以得到更好的结果。