据我了解,DNN的辍学正则化是:
退出:
首先,我们从DNN中随机删除神经元,仅保留输入和输出相同。然后,我们基于小批量执行正向传播和反向传播;了解此迷你批次的梯度,然后更新权重和偏差–在这里,我将这些更新的权重和偏差表示为Updated_Set_1。
然后,将DNN恢复为默认状态并随机删除神经元。现在,我们执行向前和向后传播,并找到一组新的权重和偏差,称为“ Updated_Set_2”。该过程一直持续到Updated_Set_N〜N代表小批量的数量为止。
最后,我们根据总的Updated_Set_N计算所有权重和偏差的平均值;例如,来自Updated_Set_1〜Updated_Set_N。这些新的平均权重和偏差将用于预测新输入。
我只想确认我的理解是正确还是错误。如果有误,请与我分享您的想法并教我。先感谢您。
答案 0 :(得分:0)
嗯,实际上没有取平均值。在训练过程中,对于每一个前馈/后退前进,我们都会随机“静音” /去激活某些神经元,因此在计算输出时,也不会在反向传播过程中考虑它们的输出和相关权重。
这意味着我们正在强迫其他激活的神经元在没有失活的神经元的帮助下做出良好的预测。 因此,这增加了它们对其他神经元(特征)的独立性,并且以同样的方式提高了模型的泛化能力。
除此之外,前进和后退传播阶段是相同的,没有丢失。