为什么要将误差乘以神经网络中sigmoid的导数?

时间:2017-08-20 22:16:30

标签: python numpy machine-learning neural-network sigmoid

以下是代码:

import numpy as np

# sigmoid function
def nonlin(x,deriv=False):
    if(deriv==True):
        return x*(1-x)
    return 1/(1+np.exp(-x))

# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])

# output dataset            
y = np.array([[0,0,1,1]]).T

# seed random numbers to make calculation
# deterministic (just a good practice)
np.random.seed(1)

# initialize weights randomly with mean 0
syn0 = 2*np.random.random((3,1)) - 1

for iter in xrange(10000):

    # forward propagation
    l0 = X
    l1 = nonlin(np.dot(l0,syn0))

    # how much did we miss?
    l1_error = y - l1

    # multiply how much we missed by the 
    # slope of the sigmoid at the values in l1
    l1_delta = l1_error * nonlin(l1,True)

    # update weights
    syn0 += np.dot(l0.T,l1_delta)

print "Output After Training:"
print l1

以下是网站:http://iamtrask.github.io/2015/07/12/basic-python-network/

代码的第36行,l1 error乘以用权重点缀的输入的导数。我不知道为什么这样做,并花了好几个小时试图解决它。我刚刚得出结论认为这是错误的,但有些事情告诉我,考虑到有多少人推荐并使用本教程作为学习神经网络的起点,这可能是不对的。

在文章中,他们说

  

再次看看sigmoid图片!如果斜坡真的很浅   (接近0),那么网络要么具有非常高的价值,要么非常高   低价值。这意味着网络对某种方式非常有信心   另一个。但是,如果网络猜到接近(x = 0,   y = 0.5)然后它不是很自信。

我似乎无法理解为什么sigmoid函数输入的高低与信心有关。当然,它有多高并不重要,因为如果预测的输出很低,那么它将真的不自信,不像他们所说的那样应该有信心因为它很高。

如果你想强调错误,那么将l1_error复制一下会更好吗?

考虑到这一点,这是一个真正令人失望的事情,最终看起来我找到了一种非常直观地开始学习神经网络的有希望的方法,但我又错了。如果你有一个很好的地方开始学习我可以很容易理解的地方,我们将不胜感激。

2 个答案:

答案 0 :(得分:4)

看看这张图片。如果sigmoid函数给你一个HIGH或LOW值(非常好的信心),那个值的导数是LOW。如果得到最陡斜率(0.5)的值,则该值的导数为高。

当函数给我们一个糟糕的预测时,我们希望用更高的数字改变我们的权重,相反,如果预测是好的(高信度),我们不想更改我们的权重。

Sigmoid function and derivative

答案 1 :(得分:3)

首先,这条线是正确的:

l1_delta = l1_error * nonlin(l1, True)

来自下一层l1_error的总误差乘以当前层的导数(这里我认为sigmoid是一个单独的层,以简化反向传播流)。它被称为chain rule

有关"网络信心的报价"可能确实会让新手学习者感到困惑。他们在这里的含义是probabilistic interpretation of the sigmoid function。 Sigmoid(或一般softmax)通常是分类问题的最后一层:sigmoid输出[0, 1]之间的值,可以看作类 0 或班级 1

在此解释中,sigmoid=0.001对类 0 具有高置信度,这对应于小梯度和对网络的小更新,sigmoid=0.999对类 1 sigmoid=0.499对任何一个班级的信心都很低。

请注意,在您的示例中,sigmoid是最后一层,因此您可以将此网络视为二进制分类,因此上述解释是有意义的。

如果你考虑隐藏层中的sigmoid激活,置信度解释更值得怀疑(尽管可以问,特定神经元是多么自信)。但是错误传播公式仍然存在,因为链规则成立。

  

如果你愿意,最好将l1_error复制一下   强调错误?

这是一个重要的注释。过去几年神经​​网络的巨大成功至少部分是由于在隐藏层中使用ReLu instead of sigmoid,正是因为它最好不要使梯度饱和。这称为vanishing gradient problem。因此,相反,您通常不想强调backprop中的错误。