如何根据以下df在Product_Code列中为每个行值找到以下字段之间的相关性?
我已经尝试过df.corr(),但没有成功。
实际数据帧为2mm +行。下面的示例数据框:
df = pd.DataFrame{ ‘Company_Numb’: ["125", "137", "129"],
'Year' : [“2016”, ”2017”, “2018”],'Product_Code' : [“Batteries”, “Clothes”, “Tablet”],'Sales_Success_Code' : [0, 1, 0],‘Peer_Group_Rank’ : [65.65, 41.24, 16.12],‘Store_Count’ : [5, 14, 2],‘Employee_Count’ : [74, 19, 10]}
•每个产品代码的Sales_Success_Code和Peer_Group_Rank之间有什么关联
•每个产品代码的Sales_Success_Code和Store_Count之间有什么关联
•每个产品代码的Sales_Success_Code和Employee_count之间有什么关联
谢谢
答案 0 :(得分:0)
我使用了与您相同的代码,并得到了结果。只是初始化了pandas对象而已。
df = pd.DataFrame({'Company_Numb': ["125", "137", "129"],
'Year': ['2016', '2017', '2018'], 'Product_Code': ['Batteries', 'Clothes', 'Tablet'], 'Sales_Success_Code': [0, 1, 0], 'Peer_Group_Rank': [65.65, 41.24, 16.12], 'Store_Count': [5, 14, 2], 'Employee_Count': [74, 19, 10]})
print(df.corr())
#OUTPUT:
Employee_Count ... Store_Count
Employee_Count 1.000000 ... -0.150210
Peer_Group_Rank 0.920429 ... 0.248218
Sales_Success_Code -0.383280 ... 0.970725
Store_Count -0.150210 ... 1.000000
答案 1 :(得分:0)
不可能在列表中找到单个项目的相关性。相关性本身用于度量两个向量之间的变化。这是因为Pearson公式如何计算与两个向量的标准偏差和协方差的相关性。 但是,存在一种找到单个列与另一列的相关系数的解决方案。
print(df.Sales_Success_Code.corr(df.Peer_Group_Rank))