我有一个SAS脚本,它使用“proc corr”程序以及weighting来创建加权相关矩阵。我现在正试图在python中重现这个功能,但我还没有找到一种在输出矩阵中包含加权的好方法。
在寻找解决方案时,我发现了一些脚本和函数,使用权重数组计算两列/变量(examples here)的加权相关系数,但我试图创建具有更多变量的加权相关矩阵。我尝试通过循环变量组合来使用这些函数,但它的运行速度比SAS程序慢。
我想知道是否有一种有效的方法可以在python中创建一个与SAS代码类似的加权相关矩阵,或者至少返回相同的结果而不循环遍历所有变量组合。
答案 0 :(得分:1)
numpy的协方差需要两种不同的权重参数 - 我没有SAS可以检查,但它可能是一种类似的方法。
https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html#numpy.cov
一旦有了协方差矩阵,就可以使用这样的公式将其转换为相关矩阵
https://en.wikipedia.org/wiki/Covariance_matrix#Correlation_matrix
完整示例
import numpy as np
x = np.array([1., 1.1, 1.2, 0.9])
y = np.array([2., 2.05, 2.02, 2.8])
np.cov(x, y)
Out[49]:
array([[ 0.01666667, -0.03816667],
[-0.03816667, 0.151225 ]])
cov = np.cov(x, y, fweights=[10, 1, 1, 1])
cov
Out[51]:
array([[ 0.00474359, -0.00703205],
[-0.00703205, 0.04872308]])
def cov_to_corr(cov):
""" based on https://en.wikipedia.org/wiki/Covariance_matrix#Correlation_matrix """
D = np.sqrt(np.diag(np.diag(cov)))
Dinv = np.linalg.inv(D)
return Dinv @ cov @ Dinv # requires python3.5, use np.dot otherwise
cov_to_corr(cov)
Out[53]:
array([[ 1. , -0.46255259],
[-0.46255259, 1. ]])