我有下表 cat_data :
organization_id amount date mcc category category_id
0 4026 221.13 2017-03-07 3504.0 Lodging 268 1
1 4029 671.40 2017-03-08 3000.0 Airfare 269 1
2 4045 116.10 2017-03-10 3000.0 Airfare 269 1
4 28 0.00 2017-05-25 5734.0 Uncategorized 1054
5 28 89.00 2017-05-25 5734.0 Uncategorized 1054
我要尝试的是,以确定mcc是否是category_id的预测变量。我想按organization_id分组,看看是否在该组织内,mcc是category_id的预测变量。 理想情况下,我可以跨组织查看,并查看mcc是否整体上可以作为category_id的预测变量,但是让模型仅检查organization_id组内的mcc / category_id代码(每个组具有不同的category_id,因此,如果我没有组,则无法进行回归)。 Category_id和mcc是多类的。当我运行此代码时:
cat_data.groupby('organization_id')['mcc', 'category_id'].corr()
我得到:
organization_id
mcc category_id
1 mcc 1.000000 0.085130
category_id 0.085130 1.000000
2 mcc 1.000000 -0.302497
category_id -0.302497 1.000000
当我运行它时:
cat_data.groupby('organization_id')['mcc', 'category_id'].corr().unstack().iloc[:,1].mean()
我的平均得分为 0.0138 。那将是我如何解释MCC对预测类别ID的影响?
我可以使用一些有关我要去哪里出错的指导。目的是查看mcc和category_id是否相关,以及是否可以将mcc用作预测category_id的预测器。