熊猫排名基于几个专栏

时间:2016-07-25 07:44:10

标签: python python-3.x pandas

我有以下数据框:

event_id  occurred_at  user_id
   19148   2015-10-01        1
   19693   2015-10-05        2
   20589   2015-10-12        1
   20996   2015-10-15        1
   20998   2015-10-15        1
   23301   2015-10-23        2
   23630   2015-10-26        1
   25172   2015-11-03        1
   31699   2015-12-11        1
   32186   2015-12-14        2
   43426   2016-01-13        1
   68300   2016-04-04        2
   71926   2016-04-19        1

我想按时间顺序(1到n)为每个用户排列事件。

我可以通过以下方式实现这一目标:

df.groupby('user_id')['occurred_at'].rank(method='dense')

然而,对于那两行,发生在同一天(对于同一个用户),我最终得到相同的等级:

   20996   2015-10-15        1
   20998   2015-10-15        1

如果事件日期相同,我想比较event_id和任意排名较低的事件与最低event_id。我怎样才能轻松实现这一目标?

我可以发布排名以确保每个排名仅使用一次,但这看起来相当笨重......

修改:如何重现:

复制粘贴data.csv文件中的数据。 然后:

import pandas as pd
df = pd.read_csv('data.csv', delim_whitespace=True)
df['rank'] = df.groupby('user_id')['occurred_at'].rank(method='dense')
>>> df[df['user_id'] == 1]
    event_id occurred_at  user_id  rank
0      19148  2015-10-01        1   1.0
2      20589  2015-10-12        1   2.0
3      20996  2015-10-15        1   3.0 <--
4      20998  2015-10-15        1   3.0 <--
6      23630  2015-10-26        1   4.0
7      25172  2015-11-03        1   5.0
8      31699  2015-12-11        1   6.0
10     43426  2016-01-13        1   7.0
12     71926  2016-04-19        1   8.0

使用python3和pandas 0.18.1

1 个答案:

答案 0 :(得分:3)

在分组之前

sort_values('event_id')然后将method='first'传递给rank

另请注意,如果occurred_at尚未datetime,请将其设为datetime

# unnecessary if already datetime, but doesn't hurt to do it anyway
df.occurred_at = pd.to_datetime(df.occurred_at) 

df['rank'] = df.sort_values('event_id') \
                 .groupby('user_id').occurred_at \
                 .rank(method='first')
df

enter image description here

完整可验证代码的参考

from StringIO import StringIO
import pandas as pd

text = """event_id  occurred_at  user_id
   19148   2015-10-01        1
   19693   2015-10-05        2
   20589   2015-10-12        1
   20996   2015-10-15        1
   20998   2015-10-15        1
   23301   2015-10-23        2
   23630   2015-10-26        1
   25172   2015-11-03        1
   31699   2015-12-11        1
   32186   2015-12-14        2
   43426   2016-01-13        1
   68300   2016-04-04        2
   71926   2016-04-19        1"""

df = pd.read_csv(StringIO(text), delim_whitespace=True)

df.occurred_at = pd.to_datetime(df.occurred_at) 

df['rank'] = df.sort_values('event_id').groupby('user_id').occurred_at.rank(method='first')

df