我正在处理具有以下结构的1800万行的数据框:
我需要根据 name_heuristic (每个有一个 套房 )的一个子系统进行计数(有该列的4个值)。因此,对于每种name_heuristic类型,我都需要一个带有列的输出,并将套件作为索引,并且值将是每列的子系统计数。
我已经尝试过使用带有以下代码的数据透视表:
df_table = pd.pivot_table(df, index='suite', columns='name_heuristics', values='subsystem', aggfunc=np.sum
但是即使经过一个小时,它也没有完成计算。花了这么长时间,我如何加快速度?我什至尝试了仍在运行15分钟并进行计数的groupby替代方案:
df_table = df.groupby(['name_heuristics', 'suite']).agg({'subsystem': np.sum}).unstack(level='name_heuristics').fillna(0)
任何帮助将不胜感激!我已经坚持了几个小时。