与熊猫的相关矩阵数据框:groupby,无循环组合

时间:2019-12-06 11:15:16

标签: python pandas loops dataframe pandas-groupby

我经常会得到使用Pandas方法pd.read_csv导入的csv文件,如下所示:

index  asset_id  timestamp              measure
0      ff_001    2019-10-03 14:00:00    0.45
1      ff_001    2019-10-03 15:00:00    0.67
2      ff_002    2019-10-03 14:00:00    2.62
3      ff_003    2019-10-04 07:00:00    2.81
.      .
.      .

我们有不同的资产ID,每个ID都有给定时间戳的度量。每个资产ID 都没有相同的时间戳记。我通常想要的是收集每个资产id的所有度量,并在它们具有共同时间戳的点上度量所有资产之间的相关性。 我这样做的方式如下:

  1. 创建一个空的数据框new_df,其中包含唯一的时间戳作为索引的NaN
  2. 遍历唯一的资产ID,并在每个循环中df.loc资产ID,找到空数据集和子选定数据集之间的日期相同,并分配值。
  3. 填充矩阵后,请使用new_df.corr()方法

所以我的问题是:如何做到没有循环?我确定有groupby和其他功能的组合,但是我找不到合适的SO问题来回答这个问题。

谢谢!

0 个答案:

没有答案