我的网络(开头是AlexNet)输出4个实数,它们大约在1e-7、1e-5、1e-2和1e-1范围内。也就是说,它们之间存在很大差异。
我使用具有0.9动量和1e-5初始学习率和5e-4 L2正则化的sgd。
首先,我使用前向损耗L = 0.5 *(y-t)^ 2(y ...输出矢量,t ...目标矢量)以及后向损耗dL / dy = y-t。在这种情况下,网络无法收敛,并且y的所有4个元素都位于同一区域1e-2。
然后,我尝试使用相对错误而不是绝对错误。 L = 0.5 *((y-t)/ t)^ 2和dL / dy =(y-t)/ t。结果,y值变为无穷大。
有人可以解释这些结果吗?