假设我有一个包含两列的DataFrame,如下所示:
1. 'a' 0.1
2. 'b' 0.2
3. 'c' 0.3
4. 'd' 0.4
,我想从中提取“窗口数据”,如下所示: (窗口大小:2)
[['a' 0.1], ['b' 0.2]], [['b' 0.2], ['c' 0.3]], [['c' 0.3], ['d' 0.4]]
目前,即时通讯使用的是最简单的循环方式:
[df.loc[i - window_size : i, features].values for i in target_data_idx]
因为我要处理近1000k的数据,所以此过程需要大量的运行时间
使用并行方式(例如Dask框架)是否有更好的解决方案?