有效地从pandas数据框中提取窗口数据

时间:2018-11-21 14:01:27

标签: python pandas parallel-processing

假设我有一个包含两列的DataFrame,如下所示:

 1. 'a'    0.1
 2. 'b'    0.2
 3. 'c'    0.3
 4. 'd'    0.4

,我想从中提取“窗口数据”,如下所示: (窗口大小:2)

[['a'    0.1], ['b'    0.2]], [['b'    0.2], ['c'    0.3]], [['c'    0.3], ['d'    0.4]]

目前,即时通讯使用的是最简单的循环方式:

[df.loc[i - window_size : i, features].values for i in target_data_idx]

因为我要处理近1000k的数据,所以此过程需要大量的运行时间

使用并行方式(例如Dask框架)是否有更好的解决方案?

0 个答案:

没有答案