Pandas中与Groupby的滚动相关性

时间:2015-03-11 23:00:10

标签: python pandas group-by correlation

假设我有一个类似于下面的Pandas数据帧,我将如何获得2个特定列和组之间的滚动关联(在此示例中为2天)由' ID'柱?我熟悉Pandas rolling_corr()函数,但我无法弄清楚如何将它与groupby()子句结合起来。

我有什么:

ID  Date    Val1    Val2
A   1-Jan   45      22
A   2-Jan   15      66
A   3-Jan   55      13
B   1-Jan   41      12
B   2-Jan   87      45
B   3-Jan   82      66
C   1-Jan   33      34
C   2-Jan   15      67
C   3-Jan   46      22

我需要什么:

ID  Date    Val1    Val2    Rolling_Corr
A   1-Jan   45      22  
A   2-Jan   15      66      0.1
A   3-Jan   55      13      0.16
B   1-Jan   41      12  
B   2-Jan   87      45      0.15
B   3-Jan   82      66      0.05
C   1-Jan   33      34  
C   2-Jan   15      67      0.09
C   3-Jan   46      22      0.11

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以从这里开始使用简单的方法:  Pandas Correlation Groupby

然后像这样添加rolling(3)

df.groupby('ID')[['Val1','Val2']].rolling(3).corr()

我已经将窗口从2改为3,因为你只得到1或-1,窗口大小为2.不幸的是,那个输出(未显示)有点冗长,因为它输出一个2x2的相关矩阵你需要的只是一个标量。  但是使用额外的行可以使输出更简洁:

df2 = df.groupby('ID')[['Val1','Val2']].rolling(3).corr()

df2.groupby(level=[0,1]).last()['Val1']

ID   
A   0         NaN
    1         NaN
    2   -0.996539
B   3         NaN
    4         NaN
    5    0.879868
C   6         NaN
    7         NaN
    8   -0.985529