我经常会得到使用Pandas方法pd.read_csv
导入的csv文件,如下所示:
index asset_id timestamp measure
0 ff_001 2019-10-03 14:00:00 0.45
1 ff_001 2019-10-03 15:00:00 0.67
2 ff_002 2019-10-03 14:00:00 2.62
3 ff_003 2019-10-04 07:00:00 2.81
. .
. .
我们有不同的资产ID,每个ID都有给定时间戳的度量。每个资产ID 不都没有相同的时间戳记。我通常想要的是收集每个资产id的所有度量,并在它们具有共同时间戳的点上度量所有资产之间的相关性。 我这样做的方式如下:
new_df
,其中包含唯一的时间戳作为索引的NaN df.loc
资产ID,找到空数据集和子选定数据集之间的日期相同,并分配值。new_df.corr()
方法所以我的问题是:如何做到没有循环?我确定有groupby和其他功能的组合,但是我找不到合适的SO问题来回答这个问题。
谢谢!