Question

我经常会得到使用Pandas方法pd.read_csv导入的csv文件，如下所示：

index  asset_id  timestamp              measure
0      ff_001    2019-10-03 14:00:00    0.45
1      ff_001    2019-10-03 15:00:00    0.67
2      ff_002    2019-10-03 14:00:00    2.62
3      ff_003    2019-10-04 07:00:00    2.81
.      .
.      .

我们有不同的资产ID，每个ID都有给定时间戳的度量。每个资产ID 不都没有相同的时间戳记。我通常想要的是收集每个资产id的所有度量，并在它们具有共同时间戳的点上度量所有资产之间的相关性。我这样做的方式如下：

创建一个空的数据框new_df，其中包含唯一的时间戳作为索引的NaN
遍历唯一的资产ID，并在每个循环中df.loc资产ID，找到空数据集和子选定数据集之间的日期相同，并分配值。
填充矩阵后，请使用new_df.corr()方法

所以我的问题是：如何做到没有循环？我确定有groupby和其他功能的组合，但是我找不到合适的SO问题来回答这个问题。

谢谢！

与熊猫的相关矩阵数据框：groupby，无循环组合

0 个答案: