我正在使用Python API在三个隐藏层前馈网络中应用dropout。我的结果不是很好,我想知道我是不是应用了丢失层 - 将它应用于密集层的输入,还是内部应用到第一个线性层的输出更好?
def dense_layer(input, output_dim, nonlinearity):
r = linear_layer(input, output_dim)
r = dropout(r, 0.25)
r = nonlinearity(r)
return r;
答案 0 :(得分:1)
如果0辍学效果更好,为什么你认为你需要辍学?你的网络是否过度适应?你有其他正规化吗?最好有关于网络架构和数据的详细信息。