应用错误收集

我正在训练一个神经网络，它有3个卷积层和1个完全连接的层，它们进一步连接到回归层。我的训练数据集如果TID：用于图像质量估计任务。我通过在一个小的6 * 6窗口上进行局部对比度归一化来预处理图像，这导致像素值大约在-4到+4之间。我在所有层中使用RELU激活功能。

问题是我的网络产生的不同层的梯度值非常小，大约2e ^-6到2e ^-7，我猜不是因为它没有产生预期的结果，所以很好地收敛。我已经尝试改变网络权重和偏差的初始化，改变学习率，采用L1和L2正则化等，但似乎没有任何帮助提升这个问题。

所以我的第一个问题是它实际上是一个问题吗？或者在卷积网络中具有如此小的梯度值是常见的事情？如果这是一个问题那么什么可以为它提供适当的解决方案？