Question

我有一个巨大的数据集（2653,17）。我注意到两列有些相关但不完全正如我从value_counts方法推断的那样。我的意思是大多数相应的I是M，或者C是NaN。有没有办法确认这个或计算这种方式有多少条目？我已经尝试将它们转换为数值并使用相关技术，但我认为这不起作用。

Answer 1

交叉表应该是查看两个分类变量之间关系的初始方法：

df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'], 
            'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))

输出：

sex               M
customer_type      
C              3  0
I              0  4

可视化它也非常有用：https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables

将数据集的列与python进行比较

1 个答案: