使用Python加权的SAS Proc Corr

时间:2017-07-13 20:55:14

标签: python pandas numpy correlation

我有一个SAS脚本,它使用“proc corr”程序以及weighting来创建加权相关矩阵。我现在正试图在python中重现这个功能,但我还没有找到一种在输出矩阵中包含加权的好方法。

在寻找解决方案时,我发现了一些脚本和函数,使用权重数组计算两列/变量(examples here)的加权相关系数,但我试图创建具有更多变量的加权相关矩阵。我尝试通过循环变量组合来使用这些函数,但它的运行速度比SAS程序慢。

我想知道是否有一种有效的方法可以在python中创建一个与SAS代码类似的加权相关矩阵,或者至少返回相同的结果而不循环遍历所有变量组合。

1 个答案:

答案 0 :(得分:1)

numpy的协方差需要两种不同的权重参数 - 我没有SAS可以检查,但它可能是一种类似的方法。

https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html#numpy.cov

一旦有了协方差矩阵,就可以使用这样的公式将其转换为相关矩阵

https://en.wikipedia.org/wiki/Covariance_matrix#Correlation_matrix

完整示例

import numpy as np

x = np.array([1., 1.1, 1.2, 0.9])

y = np.array([2., 2.05, 2.02, 2.8])

np.cov(x, y)
Out[49]: 
array([[ 0.01666667, -0.03816667],
       [-0.03816667,  0.151225  ]])

cov = np.cov(x, y, fweights=[10, 1, 1, 1])

cov
Out[51]: 
array([[ 0.00474359, -0.00703205],
       [-0.00703205,  0.04872308]])

def cov_to_corr(cov):
    """ based on https://en.wikipedia.org/wiki/Covariance_matrix#Correlation_matrix """
    D = np.sqrt(np.diag(np.diag(cov)))
    Dinv = np.linalg.inv(D)
    return Dinv @ cov @ Dinv # requires python3.5, use np.dot otherwise

cov_to_corr(cov)
Out[53]: 
array([[ 1.        , -0.46255259],
       [-0.46255259,  1.        ]])