Question

我有一个数据框：

将熊猫作为pd导入

df = pd.DataFrame([[1, 'a'],
                    [1, 'a'],
                    [1, 'b'],
                    [1, 'a'],
                    [2, 'a'],
                    [2, 'b'],
                    [2, 'a'],
                    [2, 'b'],
                    [3, 'b'],
                    [3, 'a'],
                    [3, 'b'],

                   ], columns=['session', 'issue'])
df

我想在会议中对问题进行排名。我尝试过：

df.groupby(['session', 'issue']).size().rank(ascending=False, method='dense')

session  issue
1        a        1.0
         b        3.0
2        a        2.0
         b        2.0
3        a        3.0
         b        2.0
dtype: float64

我需要的是这样的结果：

对于小组会议= 1，有3个问题和1个b问题，因此对于第1组，排名为a = 1和b = 2
对于分组会话= 2，两个等级均相等，因此它们的等级应相同= 1
对于小组会议= 3，有b个问题，一个a问题，因此等级应为b = 1和a = 2

无论如何，为什么每个组的排名都不是从1、2、3 ...开始？

Answer 1

在MultiIndex（session）的第一级使用DataFrameGroupBy.rank：

s = (df.groupby(['session', 'issue'])
        .size()
        .groupby(level=0)
        .rank(ascending=False, method='dense'))
print (s)
session  issue
1        a        1.0
         b        2.0
2        a        1.0
         b        1.0
3        a        2.0
         b        1.0
dtype: float64

熊猫groupby并在以每组1开头的组中排名

1 个答案: