应用错误收集

出于学习目的，我实施了一些流行的CNN架构，如GoogLeNet，VGG等。这些架构最初是为ImageNet分类而设计的。但是因为我这样做是为了学习目的，所以我在MNIST上训练他们。这样我就可以在我的电脑上获得快速的结果。

我正在观察一个反复出现的渐变问题，或者说是非常高的激活值（about 1e+10）。这些文件没有说明这一点，其他在线实现没有阻止这一点。显然，我是唯一一个遇到这个问题的人。

作为临时解决方案，我使用tf.clip_by_norm剪切了激活（不是渐变）。这非常有效。

我的观点是，为什么渐变对我和其他人都没有爆发？是因为我使用的是不同的数据集（MNIST）吗？