我有一个很大的数据集'df',我只是试图对一个值'A'进行分组,对另一个值'B'求和,然后保留其余的列'C'-'Z'(如果“ A”是相同的。我目前正在做:
df = df.groupby(['A',
'C',
'D',
...
'Z'])['B'].sum()
但这需要很长时间才能执行。有更有效的方法吗?
谢谢
答案 0 :(得分:0)
这可能是数据库派上用场的实例。
将数据放入表格
然后只SELECT A, SUM(B), C GROUP BY A
尤其是在大型数据集上,数据库执行聚合函数的速度将比python快得多。