我有以下数据框:
teste.head(5)
card_id feature_1 feature_2
0 C_ID_92a2005557 5 2
1 C_ID_3d0044924f 4 1
2 C_ID_d639edf6cd 2 2
3 C_ID_186d6a6901 4 3
4 C_ID_cdbd2c0db2 1 3
我还有另一个数据框:
historical.head(5)
authorized_flag card_id city_id category_1 installments category_3 merchant_category_id merchant_id
0 Y C_ID_cdbd2c0db2 88 N 0 A 80 M_ID_e020e9b302
1 Y C_ID_92a2005557 88 N 0 A 367 M_ID_86ec983688
2 Y C_ID_d639edf6cd 88 N 0 A 80 M_ID_979ed661fc
3 Y C_ID_d639edf6cd 88 N 0 A 560 M_ID_e6d5ae8ea6
4 Y C_ID_92a2005557 88 N 0 A 80 M_ID_e020e9b302
评论: 第一个数据框仅包含有关card_id和我要预测的值(目标)的一些信息
第二个数据帧看起来像每个card_id的历史记录,其中包含我需要合并到第一个数据帧的列(为每个card_id提供更多信息/列)
显然,第二个数据帧中的card_id重复了几次,因此,我需要从第二个数据帧中创建一个新的数据帧,而不是让card_id倍增。
我可以使用:
historical.groupby('card_id')。size()
并使用cad_id的使用次数创建一个新列。
但是我无法对其余的列执行此操作,因为我需要对每一列中的所有值求和并关联每个card_id以便与第一个数据帧合并
您能帮我以最好的方式创建新列吗?