将数据集的列与python进行比较

时间:2017-12-30 16:53:38

标签: python machine-learning data-science

我有一个巨大的数据集(2653,17)。我注意到两列有些相关但不完全正如我从value_counts方法推断的那样。我的意思是大多数相应的I是M,或者C是NaN。有没有办法确认这个或计算这种方式有多少条目? 我已经尝试将它们转换为数值并使用相关技术,但我认为这不起作用。

enter image description here

1 个答案:

答案 0 :(得分:0)

交叉表应该是查看两个分类变量之间关系的初始方法:

df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'], 
            'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))

输出:

sex               M
customer_type      
C              3  0
I              0  4

可视化它也非常有用:https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables