Question

我有一个很大的数据集'df'，我只是试图对一个值'A'进行分组，对另一个值'B'求和，然后保留其余的列'C'-'Z'（如果“ A”是相同的。我目前正在做：

df = df.groupby(['A',
                 'C',
                 'D',
                 ...
                 'Z'])['B'].sum()

但这需要很长时间才能执行。有更有效的方法吗？

谢谢

Answer 1

这可能是数据库派上用场的实例。

将数据放入表格

然后只SELECT A, SUM(B), C GROUP BY A

尤其是在大型数据集上，数据库执行聚合函数的速度将比python快得多。