我有两个数据帧df_cust(客户数据,约25万行)和df_trx(事务,约14mio行)。我想基于df_trx(总和,最大,最小)中的聚合在df_cust中创建新功能。另外,如果客户购买了商品A,B或C,我也会尝试创建新的虚拟功能。
合并两个数据帧没问题,但是我不知该如何创建新功能。
高度赞赏任何有用的建议
样本数据:
import pandas as pd
df_cust = pd.DataFrame({'CUST_ID': [1, 2, 3, 4],
'GENDER': [1, 0, 0, 0]})
df_trx = pd.DataFrame({'CUST_ID': [1, 4, 4, 2, 2, 4, 1],
'AMOUNT': [16, 89, 240, 20, 1303, 39, 2],
'DATE': ['2018-12-06', '2018-12-12', '2019-04-06', '2018-10-23', '2018-12-06', '2019-05-09', '2019-05-29'],
'ITEM': ['A', 'C', 'C', 'B', 'A', 'A', 'A']})
预期结果:
df_cust_merged = pd.DataFrame({'CUST_ID': [1, 2, 3, 4],
'GENDER': [1, 0, 0, 0],
'AMOUNT_SUM': [18, 1323, 'NaN', 368],
'AMOUNT_MAX': [16, 1303, 'NaN', 240],
'AMOUNT_MIN': [2, 20, 'NaN', 39],
'FIRST_TRX': ['2018-12-06', '2018-10-23', 'NaN', '2018-12-12'],
'LAST_TRX': ['2019-05-29', '2018-12-06', 'NaN', '2019-05-09'],
'HAS_ITEM_A': [1, 1, 0, 1],
'HAS_ITEM_B': [0, 1, 0, 0],
'HAS_ITEM_C': [0, 0, 0, 1]})
答案 0 :(得分:1)
首先,我们执行outer merge
来收集数据。
然后,我们GroupBy.agg
具有多个功能:mean
,sum
,max
,min
,first
,last
。
然后,我们使用pd.crosstab
来获取HAS_ITEM
列(基本上是一键编码)。
mrg1 = df_cust.merge(df_trx, on='CUST_ID', how='outer')
mrg = mrg1.groupby('CUST_ID').agg({'GENDER':'mean',
'AMOUNT':['sum', 'max', 'min'],
'DATE':['first', 'last']})
mrg.columns = ['_'.join(col) for col in mrg.columns]
mrg = mrg.join(pd.crosstab(mrg1['CUST_ID'], mrg1['ITEM'], dropna=False).add_prefix('HAS_ITEM_')).reset_index()
输出
CUST_ID GENDER_mean AMOUNT_sum AMOUNT_max AMOUNT_min DATE_first DATE_last HAS_ITEM_A HAS_ITEM_B HAS_ITEM_C
0 1 1 18.0 16.0 2.0 2018-12-06 2019-05-29 2.0 0.0 0.0
1 2 0 1323.0 1303.0 20.0 2018-10-23 2018-12-06 1.0 1.0 0.0
2 3 0 0.0 NaN NaN NaN NaN NaN NaN NaN
3 4 0 368.0 240.0 39.0 2018-12-12 2019-05-09 1.0 0.0 2.0