出于学习目的,我实施了一些流行的CNN架构,如GoogLeNet,VGG等。这些架构最初是为ImageNet分类而设计的。但是因为我这样做是为了学习目的,所以我在MNIST上训练他们。这样我就可以在我的电脑上获得快速的结果。
我正在观察一个反复出现的渐变问题,或者说是非常高的激活值(about 1e+10
)。这些文件没有说明这一点,其他在线实现没有阻止这一点。显然,我是唯一一个遇到这个问题的人。
作为临时解决方案,我使用tf.clip_by_norm
剪切了激活(不是渐变)。这非常有效。
我的观点是,为什么渐变对我和其他人都没有爆发?是因为我使用的是不同的数据集(MNIST)吗?