矢量化线性回归

时间:2018-05-03 13:47:26

标签: python numpy linear-algebra linear-regression

这是我尝试使用numpy和线性代数进行线性回归:

def linear_function(w , x , b):
    return np.dot(w , x) + b

x = np.array([[1, 1,1],[0, 0,0]])
y = np.array([0,1])

w = np.random.uniform(-1,1,(1 , 3))

print(w)
learning_rate = .0001

xT = x.T
yT = y.T

for i in range(30000):

    h_of_x = linear_function(w , xT , 1)
    loss = h_of_x - yT

    if i % 10000 == 0:
        print(loss , w)
    w = w + np.multiply(-learning_rate , loss)

linear_function(w , x , 1)

这会导致错误:

ValueError                                Traceback (most recent call last)
<ipython-input-137-130a39956c7f> in <module>()
     24     if i % 10000 == 0:
     25         print(loss , w)
---> 26     w = w + np.multiply(-learning_rate , loss)
     27 
     28 linear_function(w , x , 1)

ValueError: operands could not be broadcast together with shapes (1,3) (1,2) 

这似乎适用于减少训练集维度:

import numpy as np

def linear_function(w , x , b):
    return np.dot(w , x) + b

x = np.array([[1, 1],[0, 0]])
y = np.array([0,1])

w = np.random.uniform(-1,1,(1 , 2))

print(w)
learning_rate = .0001

xT = x.T
yT = y.T

for i in range(30000):

    h_of_x = linear_function(w , xT , 1)
    loss = h_of_x - yT

    if i % 10000 == 0:
        print(loss , w)
    w = w + np.multiply(-learning_rate , loss)

linear_function(w , x , 1)

print(linear_function(w , x[0] , 1))
print(linear_function(w , x[1] , 1))

返回:

[[ 0.68255806 -0.49717912]]
[[ 1.18537894  0.        ]] [[ 0.68255806 -0.49717912]]
[[ 0.43605474  0.        ]] [[-0.06676614 -0.49717912]]
[[ 0.16040755  0.        ]] [[-0.34241333 -0.49717912]]
[ 0.05900769]
[ 1.]

[ 0.05900769] & [ 1.]接近培训示例,所以看起来这个实现是正确的。抛出错误的实现有什么问题?我还没有实现2 - >的维度扩展。 3正确吗?

1 个答案:

答案 0 :(得分:4)

我已经概述了以下问题:

  1. 您的数组形状不一致。这可能导致广播/点的问题,特别是在梯度下降期间。修复您的初始化。我还建议使用wb添加X和一列。{/ p>

  2. 您的损失函数和梯度计算对我来说似乎不对。通常,不推荐使用曼哈顿距离作为损失函数,因为它不是足够的距离度量。我会选择欧几里德距离并尝试最小化平方和(这称为OLS regression)。然后我们按如下方式进行梯度计算。

  3. 您的更新规则将根据(2)进行相应更改。

  4. 确保为您的代码设置停止条件。你不想超越最佳状态。通常,当渐变没有太大变化时,您应该停止。

  5. 完整列表:

    # input, augmented
    x = np.array([[1, 1, 1], [0, 0, 0]])
    x = np.column_stack((np.ones(len(x)), x))
    # predictions
    y = np.array([[0, 1]])   
    # weights, augmented with bias
    w = np.random.uniform(-1, 1, (1, 4))
    
    learning_rate = .0001
    
    loss_old = np.inf
    for i in range(30000):  
        h_of_x = w.dot(x.T)
        loss = ((h_of_x - y) ** 2).sum()
    
        if abs(loss_old - loss) < 1e-5:
            break
    
        w = w - learning_rate * (h_of_x - y).dot(x)
        loss_old = loss
    

    其他建议/改进

    接下来,考虑在这里使用正则化。 L1(脊)和L2(套索)都是不错的选择。

    最后,有一个线性回归的闭合形式解决方案,保证收敛于局部最优(梯度下降仅保证局部最优)。这很快,但计算成本很高(因为它涉及计算逆)。查看权衡here

    w = y.dot(np.linalg.inv(x.dot(x.T)).dot(x))
    

    当xT.x不可逆时,您需要进行规范化。

    请记住,线性回归只能模拟线性决策边界。如果您确信您的实现是正确的,并且您的丢失仍然很糟糕,那么您的数据可能无法适应其当前的向量空间,因此您需要使用非线性基函数来对其进行转换(这实际上是非 - 线性回归)。