使用梯度下降理解代码wrt Logistic回归

时间:2017-09-12 13:29:10

标签: machine-learning logistic-regression gradient-descent convergence

我正在使用梯度下降跟踪Siraj Raval关于逻辑回归的视频:

1)链接到更长的视频: https://www.youtube.com/watch?v=XdM6ER7zTLk&t=2686s

2)链接到较短的视频: https://www.youtube.com/watch?v=xRJCOz3AfYY&list=PL2-dafEMk2A7mu0bSksCGMJEmeddU_H4D

在视频中,他谈到了使用梯度下降来减少一定数量迭代的误差,以便函数收敛(斜率变为零)。 他还通过代码说明了这个过程。以下是代码中的两个主要功能:

def step_gradient(b_current, m_current, points, learningRate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
        m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
    new_b = b_current - (learningRate * b_gradient)
    new_m = m_current - (learningRate * m_gradient)
    return [new_b, new_m]

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
    b = starting_b
    m = starting_m
    for i in range(num_iterations):
        b, m = step_gradient(b, m, array(points), learning_rate)
    return [b, m]

#The above functions are called below:
    learning_rate = 0.0001
    initial_b = 0 # initial y-intercept guess
    initial_m = 0 # initial slope guess
    num_iterations = 1000
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
# code taken from Siraj Raval's github page 

为什么b&的价值? m继续更新所有迭代?经过一定次数的迭代后,当我们找到b&的值时,函数将收敛。 m给出斜率= 0.

那么为什么我们会在那之后继续迭代并继续更新b&米? 这样,我们不会失去'正确'的b&米值?如果我们在融合后继续更新值,学习率如何帮助收敛过程?因此,为什么没有检查收敛性,那么这实际上是如何工作的呢?

2 个答案:

答案 0 :(得分:1)

在实践中,您很可能无法达到坡度0 完全。把你的损失看作是一个碗。如果您的学习率太高,可能会超过碗的最低点。相反,如果学习率太低,你的学习将变得太慢,并且在完成所有迭代之前不会达到碗的最低点。

这就是为什么在机器学习中,学习率是调整的重要超参数。

答案 1 :(得分:0)

实际上,一旦我们达到坡度0; b_gradient和m_gradient将变为0;

因此,对于:

new_b = b_current - (learningRate * b_gradient)

new_m = m_current - (learningRate * m_gradient)

new_b和new_m将保持旧的正确值;因为什么都不会从他们中减去。