我是机器学习世界的新手。我的问题是如何确定神经网络中的偏差大小(使用反向传播算法)?目前,我有一个2层神经网络(1个隐藏和1个输出层)。这是代码:
import numpy as np
from matplotlib import pyplot as plt
sigmoid = lambda x : 1 / (1 + np.exp(-x))
dsigmoid = lambda y: y * (1 - sigmoid(y))
# This function performs the given function (func) to the whole numpy array
def mapFunc(array, func) :
newArray = array.copy()
for element in np.nditer(newArray, op_flags=['readwrite']) :
element[...] = func(element)
return newArray
class NeuralNetwork :
def __init__(self, input_nodes, hidden_nodes, output_nodes) :
self.input_nodes = input_nodes
self.hidden_nodes = hidden_nodes
self.output_nodes = output_nodes
self.W_ih = np.random.rand(hidden_nodes, input_nodes)
self.W_ho = np.random.rand(output_nodes, hidden_nodes)
self.B_ih = np.random.rand(hidden_nodes, 1)
self.B_ho = np.random.rand(output_nodes, 1)
self.learningRate = 0.1
def predict(self, inputs) :
# Calculate hidden's output
H_output = np.dot(self.W_ih, inputs)
H_output += self.B_ih
H_output = mapFunc(H_output, sigmoid) # Activation
# Calculate output's output
O_output = np.dot(self.W_ho, H_output)
O_output += self.B_ho
O_output = mapFunc(O_output, sigmoid) # Activation
return O_output
def train(self, inputs, target) :
# Calculate hidden's output
H_output = np.dot(self.W_ih, inputs)
H_output += self.B_ih
H_output = mapFunc(H_output, sigmoid) # Activation
# Calculate output's output
O_output = np.dot(self.W_ho, H_output)
O_output += self.B_ho
O_output = mapFunc(O_output, sigmoid) # Activation
# Calculate output error :
O_error = O_output - target
# Calculate output delta
O_gradient = mapFunc(O_output, dsigmoid)
O_gradient = np.dot(O_gradient, np.transpose(O_error)) * self.learningRate
W_ho_delta = np.dot(O_gradient, np.transpose(H_output))
self.W_ho -= W_ho_delta
self.B_ho -= O_gradient
# Calculate hidden error :
W_ho_t = np.transpose(self.W_ho)
H_error = np.dot(W_ho_t, O_error)
# Calculate hidden delta :
H_gradient = mapFunc(H_output, dsigmoid)
H_gradient = np.dot(H_gradient, np.transpose(H_error)) * self.learningRate
W_ih_delta = np.dot(H_gradient, inputs)
self.W_ih -= W_ih_delta
self.B_ih += H_gradient
return O_output
n = NeuralNetwork(2, 2, 1)
inputs = np.matrix([[1], [0], [1], [1], [0], [1], [0], [0]])
input_list = []
input_list.append([[1], [0]])
input_list.append([[0], [1]])
input_list.append([[1], [1]])
input_list.append([[0], [0]])
target = np.matrix([[0], [0], [1], [1]])
outputs = []
for i in range(50000) :
ind = np.random.randint(len(input_list))
inp = input_list[ind]
out = n.train(inp, target[ind]).tolist()
outputs.append(out[0][0])
print outputs
plt.plot(outputs)
plt.show()
newInput = [[1], [1]]
print (n.predict(newInput))
在火车功能中,self.B_ih += H_gradient
行给我一个关于它们的大小不相等的错误。我甚至试图使偏差只有一个数字,但是由于它被H_gradient
更改为矩阵而没有帮助。那么,偏见本身是否有问题,或者我做了其他一些错误的步骤?
答案 0 :(得分:0)
你的偏见的形状是正确的。从最终的偏差中减去的梯度的形状应该是(2,1)而不是(2,2) - 这是你的情况下的问题(H_gradient的形状不应该是(2,2))。
另外,
#Calculate output error :
O_error = O_output - target
在这里,你应该使用均方误差(如果分类则交叉熵损失),而不仅仅是差异。
最后,相对于权重和偏差分别计算梯度。因此,单独计算dL / dW并从权重中减去dL / dW,并分别计算dL / db并从偏差中减去(其中L是损失)。您只对两者使用相同的渐变。