Question

我正在使用Python API在三个隐藏层前馈网络中应用dropout。我的结果不是很好，我想知道我是不是应用了丢失层 - 将它应用于密集层的输入，还是内部应用到第一个线性层的输出更好？

def dense_layer(input, output_dim, nonlinearity):
    r = linear_layer(input, output_dim)
    r = dropout(r, 0.25)
    r = nonlinearity(r)
    return r;

Answer 1

如果0辍学效果更好，为什么你认为你需要辍学？你的网络是否过度适应？你有其他正规化吗？最好有关于网络架构和数据的详细信息。

正确地在CNTK中应用辍学

1 个答案: