熊猫方法corr()并非使用所有功能

时间:2018-08-16 12:37:39

标签: python pandas correlation

我的数据框的形状为(335539,26)。 所以我有26个功能。但是当我使用

Debug..Compile VBA Project

我得到一个12 x 12的矩阵。

有什么问题? `

1 个答案:

答案 0 :(得分:0)

Pearson互相关只能与连续数据一起使用。出于各种原因,没有必要将分类特征更改为介于1到n之间的数值。您可以使用一种热编码技术或伪变量技术将其更改为数字。 您要查找哪种关联关系的数据类型之间还不清楚。 如果要查找名义变量和连续变量之间的相互关系,最好将其称为关联度量,并且可以使用scipy库中内置的ANOVA进行计算。 如果在序数变量和连续变量之间,则可以使用Spearman的关联关系方法。

如果您仍然想使用corr()查找关联,请尝试使用我提到的上述方法转换数据,尽管不确定是否会获得正确的结果。

最好先正确地提出问题,然后再寻找支持您样本空间的特定测试。

corr()仅获取数字数据,因此您只能找到数字特征之间的相互关系。