我一直在使用udacity自驾车挑战#2。我对深度网络做了什么改变,比如学习率,激活功能,我在训练时遇到梯度零问题。我已经使用了交叉熵损失和mse损失。对于交叉熵,使用100级,其中度差为10,即弧度角为0.17。例如,从(-8.2到-8.03)是0级,然后(-8.03到-7.86)是1级,依此类推。
请查看随附的屏幕截图。如图所示,输出前的层(第一个图像中的fc4)几乎变为零。所以上面的大部分梯度几乎都遵循相同的模式。需要一些建议来消除这种梯度零误差。
答案 0 :(得分:0)
这似乎是消失的梯度问题,1。)你有没有尝试过Relu? (我知道你说你已经尝试过差异激活fn)2。)你有没有尝试减少层数? 3.)您的功能是否正常化了?
有一些架构旨在防止这种情况发生(例如LSTM),但我认为你应该能够通过上述简单的事情来解决这个问题。