我有这些数据,我想在GDP水平(高于平均水平与低于平均水平)与酒精消费水平(高于平均水平与低于平均水平)之间进行交叉制表。并找到相关性。
我正在尝试这个但不是我想要的。
pd.crosstab(df['GDP'],df['Recorded_Consupmtion'], margins=True)
答案 0 :(得分:1)
IIUC:
df['GDP_Avg'] = np.where(df.GDP < df.GDP.mean(),'Below Average','Above Average')
df['RC_Avg'] = np.where(df.Recorded_Consupmtion < df.Recorded_Consupmtion.mean(),'Below Average','Above Average')
pd.crosstab(df['GDP_Avg'],df['RC_Avg'], margins=True)
输出:
RC_Avg Above Average Below Average All
GDP_Avg
Above Average 5 0 5
Below Average 1 3 4
All 6 3 9