为什么在使用Dropout时要缩放输出?

时间:2018-12-09 03:35:25

标签: machine-learning neural-network deep-learning dropout

dropout paper

  

“的想法是在测试时使用单个神经网络而不会出现辍学现象。   该网络的权重是受过培训的按比例缩小版本   重量。如果在训练期间以概率p保留一个单元,则   该单元的输出权重在测试时间乘以p为   如图2所示。这确保了对于任何隐藏单元,预期   输出(在训练时用于掉落单位的分布下)为   与测试时的实际输出相同。”

我们为什么要保留预期的输出?如果使用ReLU激活,则权重或激活的线性缩放会导致网络输出的线性缩放,并且不会对分类准确性产生任何影响。

我想念什么?

1 个答案:

答案 0 :(得分:0)

确切地说,我们不希望保留“预期输出”,而是保留输出的期望值,也就是说,我们要弥补训练中的差异(当我们不传递某些节点的值时)通过保留输出的平均值(预期)来测试阶段。

在ReLU激活的情况下,这种缩放确实会导致输出的线性缩放(当它们为正时),但是您为什么认为它不影响分类模型的最终准确性?至少到最后,我们通常应用Sigmoid的softmax,它是非线性的并且取决于此缩放比例。