我一直在尝试使用relu激活函数制作4层神经网络
但是效果不佳...
我想问题是反向传播部分。
因为其余的代码在我使用S形激活函数时效果很好
我只固定了反向传播部分
所以任何人都可以教我我的代码有什么问题
即将发布的代码是我的神经网络课程的一部分
另外,我不想使用任何深度学习框架。对不起。
# train the neural network
def train(self, inputs_list, targets_list):
# convert inputs list to 2d array
inputs = numpy.array(inputs_list, ndmin=2).T
targets = numpy.array(targets_list, ndmin=2).T
# calculate signals into hidden layer
hidden_inputs = numpy.dot(self.wih, inputs)
# calculate the signals emerging from hidden layer
hidden_outputs = self.activation_function(hidden_inputs)
# calculate signals into hidden layer
hidden_inputs2 = numpy.dot(self.wh1h2, hidden_outputs)
# calculate the signals emerging from hidden layer
hidden_outputs2 = self.activation_function(hidden_inputs2)
# calculate signals into final output layer
final_inputs = numpy.dot(self.wh2o, hidden_outputs2)
# calculate the signals emerging from final output layer
final_outputs = self.activation_function(final_inputs)
# output layer error is the (target - actual)
output_errors = targets - final_outputs
# hidden layer error is the output_errors, split by weights, recombined at hidden nodes
hidden_errors2 = numpy.dot(self.wh2o.T, output_errors)
# hidden layer error is the output_errors, split by weights, recombined at hidden nodes
hidden_errors = numpy.dot(self.wh1h2.T, hidden_errors2)
#Back propagation part
# update the weights for the links between the hidden and output layers
# self.wh2o += self.lr * numpy.dot((output_errors * final_outputs * (1.0 - final_outputs)), numpy.transpose(hidden_outputs2))
self.wh2o += self.lr * numpy.dot((output_errors * numpy.heaviside(final_inputs,0.0) ), numpy.transpose(hidden_outputs2))
# update the weights for the links between the input and hidden layers
self.wh1h2 += self.lr * numpy.dot((hidden_errors2 * numpy.heaviside(hidden_inputs2, 0.0) ), numpy.transpose(hidden_outputs))
# update the weights for the links between the input and hidden layers
self.wih += self.lr * numpy.dot((hidden_errors * numpy.heaviside(hidden_inputs, 0.0) ), numpy.transpose(inputs))
pass
wh2o表示将二次隐藏层传播到输出层的权重
wh1h2表示将第一隐藏层传播到第二层的权重
wih表示权重,它将输入层传播到隐藏层
答案 0 :(得分:0)
无需查看代码的细节; relu的受欢迎程度主要源于它在CNN上的成功。对于像这样的小型回归问题,这是一个非常糟糕的选择,因为它确实将消失的梯度问题带到了最前沿。在复杂的CNN问题中,由于复杂的原因,这并不是一个大问题。有多种方法可以使您的体系结构对消失的梯度更加健壮。但我不建议使用relu(maxout是消失梯度的最佳朋友,这是一个长期存在的问题)。底线;这很可能与您的代码中的问题无关,而纯粹是体系结构之一。