标签: gradient vgg-net relu
在CS231N课程中,它说我们希望以零为中心的数据来防止局部梯度始终与上游梯度下降相同,这会导致效率低下的梯度更新。但是在每层中使用relu会输出所有正数,如何解决效率低下的梯度更新问题?