如何将groupby()聚合在多个列上并重命名Pandas 0.21+中的多索引?

时间:2017-12-06 03:42:51

标签: python pandas pandas-groupby sklearn-pandas

代码

import pandas as pd
df = pd.DataFrame({'A': [1, 1, 1, 2, 2],
                    'B': range(5),
                    'C': range(5)})

df1 = df.groupby('A').B.agg({'B': ['count','nunique'],'C': ['sum','median']})
df1.columns = ["_".join(x) for x in df1.columns.ravel()]

df1输出

   B_count  B_nunique  C_sum  C_median
A                                     
1        3          3      3       1.0
2        2          2      7       3.5

警告

__main__:1: FutureWarning: using a dict on a Series for aggregation
is deprecated and will be removed in a future version

这是分组和重命名直到Pandas 0.20的推荐方式。在没有此警告的情况下实现相同df1输出的优雅方法是什么?

1 个答案:

答案 0 :(得分:1)

正如@Wen在问题评论中所述,在agg之前删除'.B',并且你的字典在agg内部是正确的。接下来,您可以使用mapjoin来展平多列索引列。

import pandas as pd
df = pd.DataFrame({'A': [1, 1, 1, 2, 2],
                    'B': range(5),
                    'C': range(5)})

df1 = df.groupby('A').agg({'B': ['count','nunique'],'C': ['sum','median']})
df1.columns = df1.columns.map('_'.join)

输出:

   B_count  B_nunique  C_sum  C_median
A                                     
1        3          3      3       1.0
2        2          2      7       3.5