我的这个多层网络具有 ReLU隐藏图层激活和 Sigmoid输出图层激活。我想实现 dropout (每个神经元都有机会在训练期间输出零)。
我想我可以在训练期间将这种噪音作为ReLU激活程序的一部分引入并完成它,但我不确定是否原则上,dropout延伸到是否可见/输出层。
(在我看来,辍学消除了过度拟合,因为有效地使网络成为许多小型网络的平均值。我只是不确定输出层)
答案 0 :(得分:3)
是的,你是对的 - 你不应该将 dropout 应用于输出层。直观地 - 引入这样的噪声使得网络的输出很可能独立于网络结构。无论在隐藏层中进行何种计算 - 有些概率输出可能与它们无关。这与建模的哲学完全相反。