DataFrame中列之间的相关性

时间:2013-04-06 19:05:51

标签: python pandas

我对熊猫很新,所以我猜我做错了什么 -

我有一个DataFrame:

     a     b
0  0.5  0.75
1  0.5  0.75
2  0.5  0.75
3  0.5  0.75
4  0.5  0.75

df.corr()给了我:

    a   b
a NaN NaN
b NaN NaN

np.correlate(df["a"], df["b"])给出:1.875

为什么? 我想拥有我的DataFrame的相关矩阵,并认为corr()这样做(至少根据文档)。为什么返回NaN

计算的正确方法是什么?

非常感谢!

1 个答案:

答案 0 :(得分:67)

np.correlate计算两个1维序列之间的(非标准化)cross-correlation

z[k] = sum_n a[n] * conj(v[n+k])

df.corr(默认情况下)会计算Pearson correlation coefficient

相关系数(如果存在)始终在-1和1之间(包括1和1)。 互相关不受限制。

公式有些相关,但请注意,在互相关公式(上图)中,没有平均值的减法,也没有除以标准差,这是Pearson相关系数公式的一部分。

df['a']df['b']的标准偏差为零的事实是导致df.corr到处都是NaN的原因。


从下面的评论中,听起来您正在寻找Beta。它与Pearson的相关系数有关,而不是除以标准偏差的乘积:

enter image description here

你除以方差:

enter image description here


您可以使用np.cov

计算Beta
cov = np.cov(a, b)
beta = cov[1, 0] / cov[0, 0]

import numpy as np
import matplotlib.pyplot as plt
np.random.seed(100)


def geometric_brownian_motion(T=1, N=100, mu=0.1, sigma=0.01, S0=20):
    """
    http://stackoverflow.com/a/13203189/190597 (unutbu)
    """
    dt = float(T) / N
    t = np.linspace(0, T, N)
    W = np.random.standard_normal(size=N)
    W = np.cumsum(W) * np.sqrt(dt)  # standard brownian motion ###
    X = (mu - 0.5 * sigma ** 2) * t + sigma * W
    S = S0 * np.exp(X)  # geometric brownian motion ###
    return S

N = 10 ** 6
a = geometric_brownian_motion(T=1, mu=0.1, sigma=0.01, N=N)
b = geometric_brownian_motion(T=1, mu=0.2, sigma=0.01, N=N)

cov = np.cov(a, b)
print(cov)
# [[ 0.38234755  0.80525967]
#  [ 0.80525967  1.73517501]]
beta = cov[1, 0] / cov[0, 0]
print(beta)
# 2.10609347015

plt.plot(a)
plt.plot(b)
plt.show()

enter image description here

mu s的比率为2,beta为〜2.1。


你也可以用df.corr来计算它,虽然这是一种更为圆润的方式(但很高兴看到有一致性):

import pandas as pd
df = pd.DataFrame({'a': a, 'b': b})
beta2 = (df.corr() * df['b'].std() * df['a'].std() / df['a'].var()).ix[0, 1]
print(beta2)
# 2.10609347015
assert np.allclose(beta, beta2)