熊猫pivot_table / groupby在非常大的数据帧上花费的时间太长

时间:2020-09-29 09:06:32

标签: pandas pandas-groupby pivot-table

我正在处理具有以下结构的1800万行的数据框:

enter image description here

我需要根据 name_heuristic (每个有一个 套房 )的一个子系统进行计数(有该列的4个值)。因此,对于每种name_heuristic类型,我都需要一个带有列的输出,并将套件作为索引,并且值将是每列的子系统计数。

我已经尝试过使用带有以下代码的数据透视表:

df_table = pd.pivot_table(df, index='suite', columns='name_heuristics', values='subsystem', aggfunc=np.sum

但是即使经过一个小时,它也没有完成计算。花了这么长时间,我如何加快速度?我什至尝试了仍在运行15分钟并进行计数的groupby替代方案:

df_table = df.groupby(['name_heuristics', 'suite']).agg({'subsystem': np.sum}).unstack(level='name_heuristics').fillna(0)

任何帮助将不胜感激!我已经坚持了几个小时。

0 个答案:

没有答案