Pandas pivot table嵌套排序

时间:2016-05-10 19:57:24

标签: sorting python-3.x pandas pivot-table nested-sortable

给定此数据框和数据透视表:

import pandas as pd
df=pd.DataFrame({'A':['x','y','z','x','y','z'],
                 'B':['one','one','one','two','two','two'],
                 'C':[7,5,3,4,1,6]})
df


    A   B       C
0   x   one     7
1   y   one     5
2   z   one     3
3   x   two     4
4   y   two     1
5   z   two     6

table = pd.pivot_table(df, index=['A', 'B'],aggfunc=np.sum)

table
A  B  
x  one    7
   two    4
y  one    5
   two    1
z  one    3
   two    6
Name: C, dtype: int64

我想对数据透视表进行排序,以便' A'是z,x,y和' B'基于来自数据框列C'的降序排序值。

像这样:

A  B  
z  two    6
   one    3
x  one    7
   two    4
y  one    5
   two    1

    Name: C, dtype: int64

提前致谢!

3 个答案:

答案 0 :(得分:2)

我不相信有一个简单的方法来实现你的目标。以下解决方案首先根据列C的值对您的表进行降序排序。然后根据您所需的顺序连接每个切片。

order = ['z', 'x', 'y']
table = table.reset_index().sort_values('C', ascending=False)
>>> pd.concat([table.loc[table.A == val, :].set_index(['A', 'B']) for val in order])
       C
A B     
z two  6
  one  3
x one  7
  two  4
y one  5
  two  1

答案 1 :(得分:1)

解决方案

custom_order = ['z', 'x', 'y']
kwargs = dict(axis=0, level=0, drop_level=False)

new_table = pd.concat(
    [table.xs(idx_v, **kwargs).sort_values(ascending=False) for idx_v in custom_order]
)

替代一个衬垫

pd.concat([table.xs(i, drop_level=0).sort_values(ascending=0) for i in list('zxy')]

解释

custom_order是您所需的订单。 kwargs是提高可读性的便捷方式(在我看来)。要注意的关键要素axis=0level=0对您来说可能很重要,如果您想进一步利用这一点。但是,这些也是默认值,可以省略。 drop_level=False是这里的关键参数,有必要保持idx_v我们正在xs pd.concatpd.concat将我们所有的方式放在一起

我在print new_table A B z two 6 one 3 x one 7 two 4 y one 5 two 1 Name: C, dtype: int64 电话中使用与Alexander完全相同的列表理解。

示范

$(wildcard …)

答案 2 :(得分:1)

如果您可以将A列作为分类数据阅读,那么它就会变得更加简单明了。将您的类别设置为list('zxy')并指定ordered=True会使用您的自定义排序。

您可以使用类似的内容读取数据:

'A':pd.Categorical(['x','y','z','x','y','z'], list('zxy'), ordered=True)

或者,您可以按原样读取数据,然后使用astype将A转换为分类:

df['A'] = df['A'].astype('category', categories=list('zxy'), ordered=True)

一旦A是分类,您可以像以前一样转动,然后按:

排序
table = table.sort_values(ascending=False).sortlevel(0, sort_remaining=False)