分类变量与Groupby之间的相关性

时间:2020-03-26 02:34:14

标签: python machine-learning data-science correlation predict

我有下表 cat_data

 organization_id  amount       date       mcc    category   category_id 
0   4026          221.13    2017-03-07  3504.0  Lodging 268       1
1   4029          671.40    2017-03-08  3000.0  Airfare 269       1
2   4045          116.10    2017-03-10  3000.0  Airfare 269       1
4   28              0.00    2017-05-25  5734.0  Uncategorized   1054
5   28              89.00   2017-05-25  5734.0  Uncategorized   1054

我要尝试的是,以确定mcc是否是category_id的预测变量。我想按organization_id分组,看看是否在该组织内,mcc是category_id的预测变量。 理想情况下,我可以跨组织查看,并查看mcc是否整体上可以作为category_id的预测变量,但是让模型仅检查organization_id组内的mcc / category_id代码(每个组具有不同的category_id,因此,如果我没有组,则无法进行回归)。 Category_id和mcc是多类的。当我运行此代码时:

cat_data.groupby('organization_id')['mcc', 'category_id'].corr()

我得到:

organization_id         
                   mcc          category_id
1   mcc          1.000000        0.085130
category_id      0.085130        1.000000
2   mcc          1.000000        -0.302497
category_id      -0.302497       1.000000

当我运行它时:

    cat_data.groupby('organization_id')['mcc', 'category_id'].corr().unstack().iloc[:,1].mean()

我的平均得分为 0.0138 。那将是我如何解释MCC对预测类别ID的影响?

我可以使用一些有关我要去哪里出错的指导。目的是查看mcc和category_id是否相关,以及是否可以将mcc用作预测category_id的预测器。

0 个答案:

没有答案
相关问题