Question

我有以下数据框：

teste.head(5)

               card_id       feature_1       feature_2  
0      C_ID_92a2005557               5               2  
1      C_ID_3d0044924f               4               1
2      C_ID_d639edf6cd               2               2
3      C_ID_186d6a6901               4               3
4      C_ID_cdbd2c0db2               1               3

我还有另一个数据框：

historical.head(5)

    authorized_flag           card_id   city_id   category_1    installments    category_3  merchant_category_id        merchant_id
0                 Y   C_ID_cdbd2c0db2        88            N               0             A                    80    M_ID_e020e9b302
1                 Y   C_ID_92a2005557        88            N               0             A                   367    M_ID_86ec983688
2                 Y   C_ID_d639edf6cd        88            N               0             A                    80    M_ID_979ed661fc
3                 Y   C_ID_d639edf6cd        88            N               0             A                   560    M_ID_e6d5ae8ea6
4                 Y   C_ID_92a2005557        88            N               0             A                    80    M_ID_e020e9b302

评论：第一个数据框仅包含有关card_id和我要预测的值（目标）的一些信息

第二个数据帧看起来像每个card_id的历史记录，其中包含我需要合并到第一个数据帧的列（为每个card_id提供更多信息/列）

显然，第二个数据帧中的card_id重复了几次，因此，我需要从第二个数据帧中创建一个新的数据帧，而不是让card_id倍增。

我可以使用：

historical.groupby（'card_id'）。size（）

并使用cad_id的使用次数创建一个新列。

但是我无法对其余的列执行此操作，因为我需要对每一列中的所有值求和并关联每个card_id以便与第一个数据帧合并

您能帮我以最好的方式创建新列吗？

来自groupby的新数据框

0 个答案: