说我有一个df:
data=[('a', 1), ('a', 1),('b', 1),('a', 3),('b', 2),('c', 1),('a', 2),('b', 3),('a', 2)]
df=df=pd.DataFrame(data, columns=['project', 'duration'])
# Then I made an aggregation:
df_agg=df.groupby('project').agg({'duration': ['median', 'mean']}).reset_index()
Out[11]:
project duration
median mean
0 a 2 1.8
1 b 2 2.0
2 c 1 1.0
In [12]: df_agg.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
(project, ) 3 non-null object
(duration, median) 3 non-null int64
(duration, mean) 3 non-null float64
dtypes: float64(1), int64(1), object(1)
memory usage: 152.0+ bytes
但是,df_agg
与普通的DataFrame不同,因为列看起来像
元组(duration, median)
,这样我就无法方便地使用df[['median', 'mean']]
我的问题是如何将df_agg
更改为平展的普通DataFrame?
答案 0 :(得分:1)
df_agg
数据帧的列具有一个MultiIndex。只需将其压平。
一种简单的方法是将其转换为列表,并join
每个元素:
df_agg.columns = ['_'.join(col) for col in df_agg.columns]
它给出:
project_ duration_median duration_mean
0 a 2 1.8
1 b 2 2.0
2 c 1 1.0
如果需要,您可以将列重命名为更好的名称
答案 1 :(得分:1)
您可以在分组依据的选定列上执行汇总:
df.groupby('project')['duration'].agg(['median', 'mean']).add_prefix('duration_').reset_index()
输出:
project duration_median duration_mean
0 a 2 1.8
1 b 2 2.0
2 c 1 1.0