标签: neural-network convolution backpropagation
我编写了卷积神经网络LeNet-5。我做了一些修改:
因此,网络正常运行。
之后我尝试将要素图中每个神经元的sigmoid输出替换为ReLU(整流器线性单元)。结果,网络开始学得更快,但如果我不选择低速,我会得到NaN值。
对于一小组输入数据,使用较低的学习速度更为简单。当涉及到1000多个示例时,网络正在运行,但最终我再次获得了NaN。
使用ReLU时为什么会有NaN? LeNet架构不适用于ReLU吗?