最佳方式(运行时)基于分组依据汇总(计算)总和与总计数的比率

时间:2018-07-25 12:51:39

标签: pandas python-3.6 calculation

我正在尝试确定每个人的批准申请(由标志“ 1”标识,如果不是,则为“ 0”标识)与每个人的总申请数(Cust_ID)的比率。我已经通过以下代码实现了此逻辑,但是要计算160万条记录需要大约10分钟。有没有更快的速度执行相同的操作?

# Finding ratio of approved out of total applications
df_approved_ratio = df.groupby('Cust_ID').apply(lambda x:x['STATUS_Approved'].sum()/len(x))

1 个答案:

答案 0 :(得分:1)

我认为需要通过mean进行汇总:

df = pd.DataFrame({'STATUS_Approved':[0,1,0,0,1,1],
                   'Cust_ID':list('aaabbb')})

print (df)
   STATUS_Approved Cust_ID
0                0       a
1                1       a
2                0       a
3                0       b
4                1       b
5                1       b

df_approved_ratio = df.groupby('Cust_ID')['STATUS_Approved'].mean()
print (df_approved_ratio)
Cust_ID
a    0.333333
b    0.666667
Name: STATUS_Approved, dtype: float64

print (df.groupby('Cust_ID').apply(lambda x:x['STATUS_Approved'].sum()/len(x)))
Cust_ID
a    0.333333
b    0.666667
Name: STATUS_Approved, dtype: float64