我尝试使用Sigmoid和relu函数来实现一个简单的神经网络。 使用sigmoid函数,我得到了一些不错的输出。但是当使用relu时,我得到了0或1的数组。 (我需要relu函数,因为我愿意将代码用于某些输出> 1)。
def relu(x):
return np.maximum(0,x)
def reluDerivative(x):
x[x<=0] = 0
x[x>0] = 1
return x
training_inputs = np.array([[9, 0 , 1],
[7, 1, 1],
[8, 0, 1],
[5, 1, 1]
])
training_outputs = np.array([[9, 7, 8, 5]]).T
np.random.seed(1)
synaptic_weights = 2 * np.random.random((3,1)) - 1
for iteration in range(100000):
outputs = relu(np.dot(training_inputs, synaptic_weights))
error = training_outputs - outputs
adjustments = error * reluDerivative(outputs)
synaptic_weights += np.dot(training_inputs.T, adjustments )
print("output after training: \n" , outputs)
答案 0 :(得分:0)
更新:
(感谢包括relu和reluDerivative方法)
错误确实是在reluDerivative(x)
方法中。
当您执行x[x<=0] = 0
时,您正在修改给定的numpy数组。参数x
不是outputs
的克隆/深拷贝,它是相同的numpy数组。因此,当您修改x
时,您也会同时修改outputs
。
我希望您能找出导致此错误的原因-但是,如果您需要进一步的说明,请告诉我。
更新2
代码看起来比上面的问题更多,而且有些棘手:
如果使用调试器逐步执行代码,您会注意到,不幸的是,使用当前的随机种子(1),会对突触权重进行初始化,以便所有训练示例均产生负点积,然后,ReLU设置为零。零的梯度为零,这是使用ReLU的风险之一。如何缓解呢?
一旦解决了上述问题,您仍然会注意到另一个问题。误差和梯度将在几次迭代中爆炸。这是因为您尚未使用“学习率”参数来约束权重的更新率。阅读有关如何使用学习率(或alpha)参数的信息。
祝你好运!