有效地对数据集进行分组,同时保留其他列

时间:2019-10-09 15:53:11

标签: python-3.x

我有一个很大的数据集'df',我只是试图对一个值'A'进行分组,对另一个值'B'求和,然后保留其余的列'C'-'Z'(如果“ A”是相同的。我目前正在做:

df = df.groupby(['A',
                 'C',
                 'D',
                 ...
                 'Z'])['B'].sum()

但这需要很长时间才能执行。有更有效的方法吗?

谢谢

1 个答案:

答案 0 :(得分:0)

这可能是数据库派上用场的实例。

将数据放入表格

然后只SELECT A, SUM(B), C GROUP BY A

尤其是在大型数据集上,数据库执行聚合函数的速度将比python快得多。