Question

我有下表 cat_data ：

 organization_id  amount       date       mcc    category   category_id 
0   4026          221.13    2017-03-07  3504.0  Lodging 268       1
1   4029          671.40    2017-03-08  3000.0  Airfare 269       1
2   4045          116.10    2017-03-10  3000.0  Airfare 269       1
4   28              0.00    2017-05-25  5734.0  Uncategorized   1054
5   28              89.00   2017-05-25  5734.0  Uncategorized   1054

我要尝试的是，以确定mcc是否是category_id的预测变量。我想按organization_id分组，看看是否在该组织内，mcc是category_id的预测变量。理想情况下，我可以跨组织查看，并查看mcc是否整体上可以作为category_id的预测变量，但是让模型仅检查organization_id组内的mcc / category_id代码（每个组具有不同的category_id，因此，如果我没有组，则无法进行回归）。 Category_id和mcc是多类的。当我运行此代码时：

cat_data.groupby('organization_id')['mcc', 'category_id'].corr()

我得到：

organization_id         
                   mcc          category_id
1   mcc          1.000000        0.085130
category_id      0.085130        1.000000
2   mcc          1.000000        -0.302497
category_id      -0.302497       1.000000

当我运行它时：

    cat_data.groupby('organization_id')['mcc', 'category_id'].corr().unstack().iloc[:,1].mean()

我的平均得分为 0.0138 。那将是我如何解释MCC对预测类别ID的影响？

我可以使用一些有关我要去哪里出错的指导。目的是查看mcc和category_id是否相关，以及是否可以将mcc用作预测category_id的预测器。

分类变量与Groupby之间的相关性

0 个答案: