我有以下数据框:
event_id occurred_at user_id
19148 2015-10-01 1
19693 2015-10-05 2
20589 2015-10-12 1
20996 2015-10-15 1
20998 2015-10-15 1
23301 2015-10-23 2
23630 2015-10-26 1
25172 2015-11-03 1
31699 2015-12-11 1
32186 2015-12-14 2
43426 2016-01-13 1
68300 2016-04-04 2
71926 2016-04-19 1
我想按时间顺序(1到n)为每个用户排列事件。
我可以通过以下方式实现这一目标:
df.groupby('user_id')['occurred_at'].rank(method='dense')
然而,对于那两行,发生在同一天(对于同一个用户),我最终得到相同的等级:
20996 2015-10-15 1
20998 2015-10-15 1
如果事件日期相同,我想比较event_id
和任意排名较低的事件与最低event_id
。我怎样才能轻松实现这一目标?
我可以发布排名以确保每个排名仅使用一次,但这看起来相当笨重......
修改:如何重现:
复制粘贴data.csv
文件中的数据。
然后:
import pandas as pd
df = pd.read_csv('data.csv', delim_whitespace=True)
df['rank'] = df.groupby('user_id')['occurred_at'].rank(method='dense')
>>> df[df['user_id'] == 1]
event_id occurred_at user_id rank
0 19148 2015-10-01 1 1.0
2 20589 2015-10-12 1 2.0
3 20996 2015-10-15 1 3.0 <--
4 20998 2015-10-15 1 3.0 <--
6 23630 2015-10-26 1 4.0
7 25172 2015-11-03 1 5.0
8 31699 2015-12-11 1 6.0
10 43426 2016-01-13 1 7.0
12 71926 2016-04-19 1 8.0
使用python3和pandas 0.18.1
答案 0 :(得分:3)
sort_values('event_id')
然后将method='first'
传递给rank
另请注意,如果occurred_at
尚未datetime
,请将其设为datetime
。
# unnecessary if already datetime, but doesn't hurt to do it anyway
df.occurred_at = pd.to_datetime(df.occurred_at)
df['rank'] = df.sort_values('event_id') \
.groupby('user_id').occurred_at \
.rank(method='first')
df
from StringIO import StringIO
import pandas as pd
text = """event_id occurred_at user_id
19148 2015-10-01 1
19693 2015-10-05 2
20589 2015-10-12 1
20996 2015-10-15 1
20998 2015-10-15 1
23301 2015-10-23 2
23630 2015-10-26 1
25172 2015-11-03 1
31699 2015-12-11 1
32186 2015-12-14 2
43426 2016-01-13 1
68300 2016-04-04 2
71926 2016-04-19 1"""
df = pd.read_csv(StringIO(text), delim_whitespace=True)
df.occurred_at = pd.to_datetime(df.occurred_at)
df['rank'] = df.sort_values('event_id').groupby('user_id').occurred_at.rank(method='first')
df