如何使用Pandas获得两个时间序列之间的相关性

时间:2011-06-24 12:31:46

标签: python statistics correlation pandas

我有两组温度日期,它们以常规(但不同)的时间间隔读数。我试图获得这两组数据之间的相关性。

我一直在玩Pandas试图这样做。我创建了两个时间序列,并使用TimeSeriesA.corr(TimeSeriesB)。但是,如果2个timeSeries中的时间不完全匹配(它们通常是秒数),我会得到Null作为答案。如果可以的话,我可以得到一个不错的答案:

a)在每个TimeSeries中插入/填充缺失的时间(我知道这在Pandas中是可能的,我只是不知道该怎么做)

b)从python datetime对象中删除秒数(将秒设置为00,不更改分钟)。我会失去一定程度的准确性,但不是很大。

c)在Pandas中使用其他东西来获得两个timeSeries之间的相关性

d)在python中使用一些东西来获取两个浮点列表之间的相关性,每个浮点数都有一个相应的日期时间对象,并考虑到时间。

有人有任何建议吗?

2 个答案:

答案 0 :(得分:13)

您有许多使用熊猫的选项,但是您必须决定如何对齐数据,因为它们不会在同一时刻发生。

使用其中一个时间序列中的“时间”值,这是一个示例:

    In [15]: ts
    Out[15]: 
    2000-01-03 00:00:00    -0.722808451504
    2000-01-04 00:00:00    0.0125041039477
    2000-01-05 00:00:00    0.777515530539
    2000-01-06 00:00:00    -0.35714026263
    2000-01-07 00:00:00    -1.55213541118
    2000-01-10 00:00:00    -0.508166334892
    2000-01-11 00:00:00    0.58016097981
    2000-01-12 00:00:00    1.50766289013
    2000-01-13 00:00:00    -1.11114968643
    2000-01-14 00:00:00    0.259320239297



    In [16]: ts2
    Out[16]: 
    2000-01-03 00:00:30    1.05595278907
    2000-01-04 00:00:30    -0.568961755792
    2000-01-05 00:00:30    0.660511172645
    2000-01-06 00:00:30    -0.0327384421979
    2000-01-07 00:00:30    0.158094407533
    2000-01-10 00:00:30    -0.321679671377
    2000-01-11 00:00:30    0.977286027619
    2000-01-12 00:00:30    -0.603541295894
    2000-01-13 00:00:30    1.15993249209
    2000-01-14 00:00:30    -0.229379534767

你可以看到它们在30秒内关闭。使用reindex函数可以在填充前向值时对齐数据(获取“as of”值):

    In [17]: ts.reindex(ts2.index, method='pad')
    Out[17]: 
    2000-01-03 00:00:30    -0.722808451504
    2000-01-04 00:00:30    0.0125041039477
    2000-01-05 00:00:30    0.777515530539
    2000-01-06 00:00:30    -0.35714026263
    2000-01-07 00:00:30    -1.55213541118
    2000-01-10 00:00:30    -0.508166334892
    2000-01-11 00:00:30    0.58016097981
    2000-01-12 00:00:30    1.50766289013
    2000-01-13 00:00:30    -1.11114968643
    2000-01-14 00:00:30    0.259320239297

    In [18]: ts2.corr(ts.reindex(ts2.index, method='pad'))
    Out[18]: -0.31004148593302283

请注意'pad'也是'ffill'的别名(但此时只在GitHub上最新版本的pandas中出现!)。

剥离所有日期时间的秒数。最好的方法是使用rename

    In [25]: ts2.rename(lambda date: date.replace(second=0))
    Out[25]: 
    2000-01-03 00:00:00    1.05595278907
    2000-01-04 00:00:00    -0.568961755792
    2000-01-05 00:00:00    0.660511172645
    2000-01-06 00:00:00    -0.0327384421979
    2000-01-07 00:00:00    0.158094407533
    2000-01-10 00:00:00    -0.321679671377
    2000-01-11 00:00:00    0.977286027619
    2000-01-12 00:00:00    -0.603541295894
    2000-01-13 00:00:00    1.15993249209
    2000-01-14 00:00:00    -0.229379534767

请注意,如果重命名导致重复日期,则会引发Exception

对于某些更高级的内容,假设您想要关联每分钟的平均值(每秒有多个观察值):

    In [31]: ts_mean = ts.groupby(lambda date: date.replace(second=0)).mean()

    In [32]: ts2_mean = ts2.groupby(lambda date: date.replace(second=0)).mean()

    In [33]: ts_mean.corr(ts2_mean)
    Out[33]: -0.31004148593302283

如果您没有https://github.com/wesm/pandas的最新代码,这些最后的代码段可能无法使用。如果.mean()GroupBy个对象无效,请尝试.agg(np.mean)

希望这有帮助!

答案 1 :(得分:2)

通过更改时间戳记,您可能会失去一些准确性。您可以在将NaN值填充为0的时间序列上执行外部联接,然后获得整个时间戳(它是共享的时间戳,或者仅属于其中一个数据集)。然后,您可能需要对新数据集的列执行相关函数,从而在不损失准确性的情况下为您提供所需的结果。这是我处理时间序列后的代码:

t12 = t1.join(t2, lsuffix='_t1', rsuffix='_t2', how ='outer').fillna(0)

t12.corr()

这样,您将拥有所有时间戳。