Question

我生成一个矩阵，我希望得到协方差：

test=np.array([4,2,.6,4.2,2.1,.59,3.9,2,.58,4.3,2.1,.62,4.1,2.2,.63]).reshape(5,3)
test 
array([[ 4.  ,  2.  ,  0.6 ],
       [ 4.2 ,  2.1 ,  0.59],
       [ 3.9 ,  2.  ,  0.58],
       [ 4.3 ,  2.1 ,  0.62],
       [ 4.1 ,  2.2 ,  0.63]])

我用numpy函数计算协方差：

np.cov(test)
array([[ 2.92      ,  3.098     ,  2.846     ,  3.164     ,  2.966     ],
       [ 3.098     ,  3.28703333,  3.0199    ,  3.3566    ,  3.1479    ],
       [ 2.846     ,  3.0199    ,  2.7748    ,  3.0832    ,  2.8933    ],
       [ 3.164     ,  3.3566    ,  3.0832    ,  3.4288    ,  3.2122    ],
       [ 2.966     ,  3.1479    ,  2.8933    ,  3.2122    ,  3.0193    ]])

然而，这与遵循协方差公式不同：

mean=np.mean(test,0)
np.dot(test-mean,(test-mean).T)/(5-1)
array([[ 0.004104, -0.002886,  0.006624, -0.005416, -0.002426],
       [-0.002886,  0.002649, -0.005316,  0.005044,  0.000509],
       [ 0.006624, -0.005316,  0.011744, -0.010496, -0.002556],
       [-0.005416,  0.005044, -0.010496,  0.010164,  0.000704],
       [-0.002426,  0.000509, -0.002556,  0.000704,  0.003769]])

这与numpy计算不符。事实上，我看一下source code，方程是(x-m) * (x-m).T.conj() / (N - 1)，我相信我正在实施。

Answer 1

差异来自np.cov计算行向量之间的协方差的事实，这就是结果为5*5而不是3*3的原因，但np.mean计算了列向量的平均值，当您执行test - mean时，计算也会沿着与np.cov正在执行的列不同的列进行广播，修复将分为两步：

首先，确保计算每行的均值，这可以通过简单地转置test矩阵来完成：

mean = np.mean(test.T, 0)

然后在计算x - x_bar时，重新整形平均向量，使得负数也沿着行，并且由于测试中的向量是行向量，因此维度将为3 5。在这些修复之后，它将给出np.cov所做的一致结果：

np.dot(test-mean[:, None],(test-mean[:, None]).T)/(3-1) 

# array([[ 2.92      ,  3.098     ,  2.846     ,  3.164     ,  2.966     ],
#        [ 3.098     ,  3.28703333,  3.0199    ,  3.3566    ,  3.1479    ],
#        [ 2.846     ,  3.0199    ,  2.7748    ,  3.0832    ,  2.8933    ],
#        [ 3.164     ,  3.3566    ,  3.0832    ,  3.4288    ,  3.2122    ],
#        [ 2.966     ,  3.1479    ,  2.8933    ,  3.2122    ,  3.0193    ]])

按公式计算的numpy协方差和协方差矩阵产生不同的结果

1 个答案: