可以在一个数据集中发生爆炸梯度而不是另一个数据集吗?

时间:2017-05-14 17:54:35

标签: tensorflow conv-neural-network

出于学习目的,我实施了一些流行的CNN架构,如GoogLeNet,VGG等。这些架构最初是为ImageNet分类而设计的。但是因为我这样做是为了学习目的,所以我在MNIST上训练他们。这样我就可以在我的电脑上获得快速的结果。

我正在观察一个反复出现的渐变问题,或者说是非常高的激活值(about 1e+10)。这些文件没有说明这一点,其他在线实现没有阻止这一点。显然,我是唯一一个遇到这个问题的人。

作为临时解决方案,我使用tf.clip_by_norm剪切了激活(不是渐变)。这非常有效。

我的观点是,为什么渐变对我和其他人都没有爆发?是因为我使用的是不同的数据集(MNIST)吗?

这是one of my scripts.

0 个答案:

没有答案