我正在阅读Tom Mitchell的机器学习书,他提到了感知器训练规则的公式
,其中
这意味着如果非常大,那么也是如此,但是当很大时,我不明白大型更新的目的
相反,我觉得如果有一个很大的那么更新应该很小,因为的小波动会导致最终输出发生很大的变化(由于{ {3}})答案 0 :(得分:2)
调整是向量加法和减法,可以认为是旋转超平面,使得0
类属于一个部分而类1
属于另一部分。
考虑1xd
权重向量,指示感知器模型的权重。另外,请考虑1xd
数据点。然后,在不失一般性的情况下考虑线性阈值的感知器模型的预测值将是
这里'。'是点积,或
上面的超平面是
(为简单起见,忽略权重更新的迭代索引)
让我们考虑一下我们有两个类0
和1
,同样不失一般性,标有0
的数据点落在一边,其中Eq.1< = 0超平面,标记为1
的数据点落在Eq.1>的另一侧。 0
此超平面 normal 的向量是。带有标签0
的数据点之间的角度应该大于90
度,带有标签1
的数据点之间的数据点应该小于90
度。
1
,但目前的权重集将其归类为0
。 Eq1。 应该是。 EQ1。在这种情况下,表示和之间的角度大于 90
度,这应该更小。更新规则为。如果您想象在2d中添加矢量,则会旋转超平面,使和之间的角度比以前更接近并且小于90
度。 0
,但目前的权重集将其归类为1
。 eq1。 应该是。 EQ1。在这种情况下,表示和之间的角度小于 90
度,这应该更大。更新规则为。同样,这将旋转超平面,使和之间的角度大于90
度。迭代过度并且过度旋转并调整超平面,使超平面法线的角度小于90
度,其数据点标记为1
,大于{{1具有标记为90
的类的数据点的度数。
如果的幅度很大,则会发生很大的变化,因此它会在过程中引起问题,并且可能需要更多的迭代才能收敛,这取决于初始权重的大小。因此,对数据点进行标准化或标准化是个好主意。从这个角度来看,很容易直观地看到更新规则究竟在做什么(将偏差视为超平面Eq.1的一部分)。现在将其扩展到更复杂的网络和/或阈值。
推荐阅读和参考:Neural Network, A Systematic Introduction by Raul Rojas:第4章