我有一个如下所示的数据框:
customer_id event_date data
1 2012-10-18 0
1 2012-10-12 0
1 2015-10-12 0
2 2012-09-02 0
2 2013-09-12 1
3 2010-10-21 0
3 2013-11-08 0
3 2013-12-07 1
3 2015-09-12 1
我希望添加其他列,例如'flag_1'和&下面的'flag_2',允许我自己(以及其他我传递修改后的数据时)轻松过滤。
Flag_1表示该客户在数据集中首次出现。我通过排序成功实现了这个:
dta.sort_values(['customer_id','event_date'])
然后使用:dta.duplicated(['customer_id']).astype(int)
当“数据”列为1时,Flag_2将表示每个客户的第一次发生。
实现的附加列的示例如下所示:
customer_id event_date data flag_1 flag_2
1 2012-10-18 0 1 0
1 2012-10-12 0 0 0
1 2015-10-12 0 0 0
2 2012-09-02 0 1 0
2 2013-09-12 1 0 1
3 2010-10-21 0 1 0
3 2013-11-08 0 0 0
3 2013-12-07 1 0 1
3 2015-09-12 1 0 0
我是pandas的新手并且不确定如何在不迭代整个数据框的情况下实现'flag_2'列 - 我假设有一种更快的方法来实现使用内置函数但没有找到任何帖子?
由于
答案 0 :(得分:3)
首先初始化空标志。使用groupby
根据customer_id
获取群组。对于第一个标记,使用loc
为每个组中的第一个值设置flag1
的值。对flag2
使用相同的策略,但首先过滤data
已设置为1的情况。
# Initialize empty flags
df['flag1'] = 0
df['flag2'] = 0
# Set flag1
groups = df.groupby('customer_id').groups
df.loc[[values[0] for values in groups.values()], 'flag1'] = 1
# Set flag2
groups2 = df.loc[df.data == 1, :].groupby('customer_id').groups
df.loc[[values[0] for values in groups2.values()], 'flag2'] = 1
>>> df
customer_id event_date data flag1 flag2
0 1 2012-10-18 0 1 0
1 1 2012-10-12 0 0 0
2 1 2015-10-12 0 0 0
3 2 2012-09-02 0 1 0
4 2 2013-09-12 1 0 1
5 3 2010-10-21 0 1 0
6 3 2013-11-08 0 0 0
7 3 2013-12-07 1 0 1
8 3 2015-09-12 1 0 0