通常使用0.5
的丢失率作为默认值,我也在完全连接的网络中使用。这个建议遵循原始Dropout论文(Hinton等人)的建议。
我的网络由完全连接的大小层组成
[1000, 500, 100, 10, 100, 500, 1000, 20]
。
我不会将dropout应用到最后一层。但是我确实把它应用到了10号的瓶颈层。鉴于dropout = 0.5
,这似乎不合理。我想很多信息都会丢失。使用辍学时,如何处理瓶颈层是否有经验法则?增加瓶颈大小或降低辍学率是否更好?
答案 0 :(得分:1)
添加了下垂层以防止神经网络过度拟合(规整化)。
首先,辍学率会在图层的输出值中添加噪声,以破坏导致过度拟合的偶然性模式。
此处的丢弃率为0.5表示应丢弃50%的值,这是高噪声比,并且瓶颈层确定为否。
我建议您先训练瓶颈层而不会掉线,然后将其结果与增加的掉线进行比较。
选择最能验证您的测试数据的模型。