我有深度转换网络识别64 * 96 1通道图像。
我忘了为图像添加标准化:(image - image.mean())/ stddev。
网络收敛速度非常快,达到了85%或者其他什么,但却给了巨大的损失。
我发现了我的错误,添加了这样的规范化:
image = (image - image.mean()) / np.std(image)
由于某种原因,在那之后它完全停止了收敛。
我试图提高学习率,但根本没有帮助。
有谁可以帮我理解实际发生的事情?
更新:已更改
np.std(image, axis = 0)
到
np.std(image)
答案 0 :(得分:1)
我认为您面临的问题是学习率非常高。高学习率导致培训在开始时给出巨大的损失值,然后无法收敛。您应该从一开始就使用较低的学习率,看看网络是否收敛。您还可以遵循降低学习率的策略,因为网络正在接受培训。这个link对您培训网络非常有帮助。