应用错误收集

我的网络（开头是AlexNet）输出4个实数，它们大约在1e-7、1e-5、1e-2和1e-1范围内。也就是说，它们之间存在很大差异。

我使用具有0.9动量和1e-5初始学习率和5e-4 L2正则化的sgd。

首先，我使用前向损耗L = 0.5 *（y-t）^ 2（y ...输出矢量，t ...目标矢量）以及后向损耗dL / dy = y-t。在这种情况下，网络无法收敛，并且y的所有4个元素都位于同一区域1e-2。

然后，我尝试使用相对错误而不是绝对错误。 L = 0.5 *（（y-t）/ t）^ 2和dL / dy =（y-t）/ t。结果，y值变为无穷大。

有人可以解释这些结果吗？