我有一个巨大的数据集(2653,17)。我注意到两列有些相关但不完全正如我从value_counts方法推断的那样。我的意思是大多数相应的I是M,或者C是NaN。有没有办法确认这个或计算这种方式有多少条目? 我已经尝试将它们转换为数值并使用相关技术,但我认为这不起作用。
答案 0 :(得分:0)
交叉表应该是查看两个分类变量之间关系的初始方法:
df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'],
'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))
输出:
sex M
customer_type
C 3 0
I 0 4