辍学产生的许多薄层是如何平均的?在测试阶段要使用哪些重量?我真的很困惑这个。因为每个变薄的层都会学习一组不同的权重。那么对于每个稀疏网络分别进行反向传播?这些稀疏网络之间的权重是如何共享的?因为在测试时只使用一个神经网络和一组权重。那么使用哪组权重?
据说,针对每个培训案例训练了不同的细化网络。培训案例究竟是什么意思?你的意思是每个前进和后向传播训练一次不同的稀疏网络?然后下一个前进和后向传播训练另一个变薄的网络?如何学习权重?
答案 0 :(得分:2)
培训期间:
在Dropout中,您只需强制该层的激活/输出的某些数字(丢失概率)为零。通常,会创建一个布尔掩码来删除这些激活。在进行反向传播时使用这些掩模。因此,渐变应用于仅用于前方道具的权重。
测试时:
使用所有重量。保留所有神经元(无丢失),但该层的激活/输出通过p(丢失概率)缩放,以归一化来自该层的整个输出。
它只是一个网络,如上图所示(从这里使用:https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)
问题:我不明白稀疏网络是什么意思。
我希望这会有所帮助。